.NET में OCR के लिए स्कैन किए गए दस्तावेजों को कैसे खेती करें
Optical Character Recognition (OCR) के लिए स्कैन किए गए दस्तावेजों की तैयारी करते समय, यह महत्वपूर्ण है कि चित्रों को पाठ-गंभीर क्षेत्रों पर ध्यान केंद्रित किया जाए।
OCR के लिए क्रॉपिंग स्कैन किए गए दस्तावेजों के लाभ
- सटीकता में सुधार:- OCR के प्रयासों को संबंधित पाठ अनुभागों पर ध्यान केंद्रित करें, शोर या अप्रासंगिक सामग्री से बचें।
कम प्रसंस्करण समय:- प्रसंस्करण के क्षेत्र को कम करने के लिए छवि को उगाएं, OCR प्रक्रिया को तेज करें।
** बेहतर पाठ निष्कर्षण** :- सुनिश्चित करें कि पाठ ठीक से संरेखित और OCR इंजन के लिए अच्छी तरह से ढांचा है।
इमेज कॉपीरइट Setting Up Aspose.Imaging
- स्थापित करें .NET एसडीके आपके सिस्टम पर।
- अपने प्रोजेक्ट में Aspose.Imaging जोड़ें:
dotnet add package Aspose.Imaging
- एक मेटेड लाइसेंस प्राप्त करें और इसे उपयोग करने के लिए सेट करें
SetMeteredKey()
.
OCR के लिए कच्चे स्कैन किए गए दस्तावेजों का कदम-दर-चरण गाइड
चरण 1: मीटर लाइसेंस सेट करें
Aspose.Imaging स्थापित करने के लिए असीमित पहुंच को खनन सुविधाओं।
using Aspose.Imaging;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
चरण 2: स्कैन किए गए दस्तावेज़ की छवि को लोड करें
OCR तैयारी के लिए कवर किए जाने वाले स्कैन किए गए दस्तावेज़ फ़ाइल को लोड करें।
string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
Console.WriteLine($"Loaded scanned document: {inputPath}");
}
चरण 3: फसल क्षेत्र को परिभाषित करें
पाठ के चारों ओर सीधे क्षेत्र को परिभाषित करें जिसे निकालने की आवश्यकता है।
var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");
चरण 4: फसल ऑपरेशन लागू करें
का उपयोग करें Crop()
छवि से आवश्यक पाठ अनुभाग को निकालने का तरीका।
image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");
चरण 5: छवि को बचाएं
OCR प्रसंस्करण के लिए कूपित छवि को बचाएं।
image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");
तैनाती और उपयोग
** दस्तावेज प्रसंस्करण प्रणाली** :- OCR के लिए छवियों को तैयारी करने के लिये स्वचालित दस्तावेज़ स्कैन सिस्टम में खनन लागू करें।
** ओसीआर कार्यप्रवाह एकीकरण** :- उन्हें तेजी से और अधिक सटीक पाठ निष्कर्षण के लिए OCR इंजनों में स्थानांतरित करने से पहले दस्तावेजों की खेती करें।
आउटपुट प्रमाणीकरण:- यह सुनिश्चित करने के लिए कि पाठ स्पष्ट रूप से दिखाई देता है और सही ढंग से फ्रेम किया जाता है।
वास्तविक दुनिया के अनुप्रयोग
** कानूनी और चिकित्सा दस्तावेज स्कैन** :- ओसीआर प्रसंस्करण के लिए महत्वपूर्ण पाठ पर ध्यान केंद्रित करने की खेती स्कैन किए गए अनुबंध या चिकित्सा रिकॉर्ड।
संग्रह प्रणाली:- पाठ निकालने और डिजिटलकरण के लिए ऐतिहासिक दस्तावेजों को तैयार करें।
- इलेक्ट्रॉनिक प्रबंधन सेवाएं:- स्कैन किए गए फॉर्म या अनुप्रयोगों से पाठ का निष्कर्षण स्वचालित करें।
सामान्य समस्याएं और सुधार
** गलत फसल क्षेत्र** :- सुनिश्चित करें कि
Rectangle
अनुभाग को पाठ के साथ संरेखित करता है।- कम गुणवत्ता वाली तस्वीरें:- सुनिश्चित करें कि स्कैन की गई छवि OCR सटीकता के लिए पर्याप्त उच्च संकल्प है।
फ़ाइल लाइसेंस:- आउटपुट निर्देशिकाओं के पास उपयुक्त लिखने की अनुमति है।
Conclusion
Aspose.Imaging for .NET का उपयोग करके, आप आसानी से स्कैन किए गए दस्तावेजों को ओसीआर प्रसंस्करण के लिए महत्वपूर्ण खंडों पर ध्यान केंद्रित कर सकते हैं, सटीकता और दक्षता में सुधार करते हैं।