.NET का उपयोग करके Deskew के साथ OCR के लिए स्कैन किए गए छवियों को कैसे तैयार करें

.NET का उपयोग करके Deskew के साथ OCR के लिए स्कैन किए गए छवियों को कैसे तैयार करें

सटीक OCR (ऑप्टिकल चरित्र पहचान) पूरी तरह से संरेखित छवियों के साथ शुरू होता है. स्केड या घुमावदार स्कैन ओसीआर की सच्चाई को कम करते हैं, इसलिए डिस्केटिंग एक महत्वपूर्ण प्री-प्रोसेसिंग कदम है।

असली दुनिया की समस्या

OCR इंजन अच्छी तरह से संरेखित छवियों पर सबसे अच्छा काम करते हैं. क्रॉक स्कैन याद किए गए वर्णों या पाठ त्रुटियों का कारण बनता है. मैन्युअल स्ट्रेडिंग बड़े बैट्स के लिए बहुत धीमी है।

समाधान समीक्षा

.NET के लिए Aspose.Imaging का उपयोग स्कैनिंग की गई छवियों को स्वचालित रूप से डिस्कनेक्ट करें. उन्हें PNG या TIFF जैसे हानिहीन प्रारूप में संग्रहीत करें, अपनी पसंद के OCR सॉफ्टवेयर (एस्पोस.ओसीआर, Tesseract, आदि) में आयात करने के लिये तैयार।

Prerequisites

  • Visual Studio 2019 या बाद में
  • .NET 6.0 या बाद में (या .Net Framework 4.6.2+)
  • NuGet से .NET के लिए Aspose.Imaging
  • एक स्कैन किए गए दस्तावेज़ या छवि (JPEG, PNG, TIFF, आदि)
PM> Install-Package Aspose.Imaging

चरण-दर-चरण कार्यान्वयन

चरण 1: स्कैन की गई छवि को हटा दें

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

चरण 2: किसी भी OCR इंजन में डिस्केड छवियों को पार करें

  • अपने पसंदीदा OCR टूल का उपयोग छवि से पाठ को पहचानने के लिए करें।
  • उदाहरण : आयात scan_for_ocr_deskewed.png अपने OCR पाइपलाइन या सॉफ्टवेयर (Aspose.OCR, Tesseract, ABBYY, आदि) में प्रवेश करें।

चरण 3: समीक्षा और पुनर्विचार

  • OCR परिणामों की जांच करें. यदि सटीकता कम है, तो डिस्क / बैकग्राउंड सेटिंग्स को समायोजित करें या स्कैन गुणवत्ता।
  • सभी नए स्कैन के लिए बैच-प्रसंस्करण पर विचार करें ताकि आपके डिजिटल कार्यप्रवाह को प्रभावी बनाए रखा जा सके।

मामलों और अनुप्रयोगों का उपयोग करें

  • खोज योग्य पाठ के लिए फ़ाइलों, रिसेप्शन, अनुबंधों या फॉर्मों को डिजिटल करना
  • अनुपालन और ऑडिट के लिए व्यावसायिक दस्तावेजों की तैयारी
  • किसी भी OCR या दस्तावेज़ स्वचालन पाइपलाइन में सटीकता बढ़ाना

आम चुनौतियां और समाधान

** विचलित छवियों को अभी भी OCR त्रुटियों का कारण बनता है:** विभिन्न पृष्ठभूमि रंगों की कोशिश करें, ध्वनि के लिए प्री-फिल्टर करें या उच्च संकल्प स्कैन करें।

आउटपुट फ़ाइलें बहुत बड़ी हैं: यदि पारदर्शिता की आवश्यकता होती है तो संपीड़न के साथ TIFF या PNG का उपयोग करें।

छवि प्रारूपों का मिश्रण: OCR से पहले सभी स्कैन को हानि-मुक्त स्वरूप में मानकीकृत करें।

सर्वश्रेष्ठ अभ्यास

  • हमेशा OCR के लिए हानिहीन छवि प्रारूपों का उपयोग करें
  • संदर्भ के लिए मूल और संसाधित छवियों को रखें
  • टीम के लिए डिस्केव और डिजिटेशन कार्यप्रवाह दस्तावेज करें

FAQ

** Q: क्या मैं एक फ़ोल्डर में सभी छवियों को डिस्केच कर सकता हूं?**A: हाँ - इस कोड को सभी फ़ाइलों पर एक लूप में डाल दें, जैसा कि पिछले बैच उदाहरणों में दिखाया गया है।

**Q: OCR के लिए कौन सा पृष्ठभूमि रंग सबसे अच्छा काम करता है?**ए: सफेद पाठ के लिए सबसे सुरक्षित है; ग्राफिक्स या आपके दस्तावेज़ के अनुरूप पारदर्शी का उपयोग करें।

**Q: क्या डिस्केव के बाद फ़ाइलों को संपीड़ित करना ठीक है?**ए: OCR सटीकता को कम करने वाले आर्टिफैक्ट्स से बचने के लिए हानिहीन संपीड़न का उपयोग करें।

Conclusion

Aspose.Imaging for .NET एक विश्वसनीय OCR, डिजिटलकरण, और व्यापार स्वचालन के लिए एक आवश्यकता है. अपने पाइपलाइन को साफ, तेज़ और सटीक रखें! .NET API संदर्भ के लिए Aspose.Imaging .

 हिंदी