Aspose.OCR के साथ कम गुणवत्ता वाली छवियों पर OCR सटीकता में सुधार कैसे करें
कई व्यावसायिक-मूल्य छवियों की कम गुणवत्ता होती है – ब्लोरी स्कैन, स्मार्टफोन तस्वीरें, स्केड रिसेप्ट्स, या शोर फैक्स. ये चुनौतियां ओसीआर सटीकता को कम करती हैं. .NET के लिए Aspose.OCR अंतर्निहित उपकरणों और सर्वश्रेष्ठ प्रथाओं की पेशकश करता है ताकि संभव के सर्वोत्तम पाठ को यहां तक कि कठिन चित्रों से निकाल दिया जा सके.
असली दुनिया की समस्या
जब स्कैन गड़बड़, अंधेरा, कम विरोधाभास, या पृष्ठभूमि शोर है, तो मानक ओसीआर शब्दों को याद कर सकता है या वर्णों की गलत पहचान कर सकते हैं. यह डाउनस्ट्रीम प्रणालियों या मैन्युअल पुनरावृत्ति में खराब डेटा का कारण बनता है.
समाधान समीक्षा
प्रीप्रोसेसिंग (डिस्केव, अस्वीकार, विरोधाभास समायोजन) और Aspose.OCR सेटिंग्स को ट्यूनिंग करके, आप पाठ निष्कर्षण में नाटकीय सुधार कर सकते हैं - यहां तक कि उप-पार छवियों से भी।
Prerequisites
- Visual Studio 2019 या बाद में
- .NET 6.0 या बाद में (या .Net Framework 4.6.2+)
- NuGet से .NET के लिए Aspose.OCR
- C# कौशल
PM> Install-Package Aspose.OCR
चरण-दर-चरण कार्यान्वयन
चरण 1: Aspose.OCR स्थापित करें और सेट करें
using Aspose.OCR;
चरण 2: छवि गुणवत्ता का मूल्यांकन करें
जांच के लिए:
- Blurriness
- रोटेशन / Rotation
- पृष्ठभूमि शोर
- कम विपरीत
- कमजोर प्रकाश / छाया
चरण 3: छवि प्रसंस्करण और सुधार लागू करें
Aspose.OCR में इनकार, डिस्केव, बाइनरीकरण, विरोधाभास और अधिक के लिए फ़िल्टर हैं:
RecognitionSettings settings = new RecognitionSettings();
settings.AutoContrast = true; // Improve contrast automatically
settings.Denoising = true; // Remove background noise
settings.Deskew = true; // Correct rotated images
settings.Binarization = true; // Convert to black/white for clarity
चरण 4: कठिन छवियों के लिए पहचान सेटिंग्स को लागू करें
आप ट्यूनिंग के माध्यम से बेहतर परिणाम प्राप्त कर सकते हैं:
Language
संपत्ति (सबसे निकटतम मैच चुनें)DetectAreasMode
(फोटो के विपरीत)
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.PHOTO; // If image is a photo
चरण 5: पाठ निकालना और सत्यापित करना
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("blurry_invoice.jpg");
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
चरण 6: अलग सेटिंग्स के साथ Iterate और टेस्ट करें
प्री-प्रसंस्करण फ़िल्टर और सेटिंग्स के कई संयोजनों का प्रयास करें, फिर सर्वोत्तम सटीकता के लिए आउटपुट की समीक्षा करें।
चरण 7: बड़े पैमाने पर नौकरियों के लिए स्वचालित प्रीप्रोसेसिंग
सभी छवियों को सर्वोत्तम सेटिंग्स के साथ एक निर्देशिका में संसाधित करें:
foreach (string file in Directory.GetFiles("./problem_images", "*.png"))
{
input.Add(file);
}
चरण 8: पूर्ण उदाहरण
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("blurry_invoice.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.AutoContrast = true;
settings.Denoising = true;
settings.Deskew = true;
settings.Binarization = true;
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.PHOTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
मामलों और अनुप्रयोगों का उपयोग करें
डिजिटल रिसेप्शन और फैक्स
फैक्स, फ़ैक्स या टूटे हुए रिसेप्शन और बिलों से डेटा निकालना।
खराब स्कैन के साथ भुगतान योग्य खातों को स्वचालित करना
पुनरावृत्ति को कम करें और खराब स्रोतों से भी एपी प्रसंस्करण को तेज करें।
Archive for विरासत कागज
पुराने, खराब फ़ाइलों और हाथ से लिखे नोट्स से उपयोगी पाठ को सहेजें।
आम चुनौतियां और समाधान
चुनौती 1: छवियों को अनदेखा किया जा सकता है
** समाधान:** बचाव के लिए पूछें या आवश्यकतानुसार उन्नत सुधार उपकरणों का उपयोग करें।
चुनौती 2: बैच प्रसंस्करण बोतलों
** समाधान:** स्वचालित प्री-प्रोसेसिंग और नौकरियों को समय-समय पर योजना बनाएं।
चुनौती 3: अत्यधिक परिवर्तनीय इनपुट
** समाधान:** दस्तावेज़ प्रकार के अनुसार सर्वश्रेष्ठ सेटिंग्स संग्रहीत करें; नियमित रूप से वैध करें।
प्रदर्शन विचार
- प्री-प्रसंस्करण सीपीयू समय जोड़ता है लेकिन ओसीआर सटीकता को दोगुना कर सकता है
- अपने हार्डवेयर के लिए टेस्ट बैच आकार
- चलने के बाद ओसीआर वस्तुओं की तैयारी
सर्वश्रेष्ठ अभ्यास
- ऑडिट के लिए मूल चित्र संग्रहीत करें
- एकीकरण से पहले उत्पादन की पुष्टि करें
- महत्वपूर्ण कार्यप्रवाहों के लिए गुणवत्ता नियंत्रण जांच का उपयोग करें
- सुधार के लिए नियमित रूप से Aspose.OCR अपडेट करें
उन्नत परिदृश्य
परिदृश्य 1: बाहरी उपकरणों के साथ प्री-प्रसंस्करण (वैकल्पिक)
चरम मामलों के लिए OCR से पहले ImageMagick या OpenCV जैसे उपकरणों के साथ छवियों को बढ़ाएं।
परिदृश्य 2: दस्तावेज़ प्रकार के अनुसार अनुकूलित फ़िल्टरिंग
अधिकतम सटीकता के लिए स्रोत या कार्यप्रवाह के आधार पर सेटिंग्स को संग्रहीत और पुन: उपयोग करें।
Conclusion
उचित प्रारंभिक प्रसंस्करण और सेटिंग्स के साथ, .NET के लिए Aspose.OCR मूल्यवान डेटा को खराब गुणवत्ता वाली छवियों से भी बचा सकता है, स्वचालितता और अनुपालन को बढ़ाता है।
उन्नत टिप्स और नवीनतम फ़िल्टर के लिए, देखें .NET API संदर्भ के लिए Aspose.OCR .