Aspose.OCR का उपयोग करके .NET में स्कैन किए गए पीडीएफ से पाठ कैसे निकालें
स्कैन किए गए पीडीएफ के साथ काम करने के लिए अक्सर चुनौतीपूर्ण होते हैं क्योंकि वे मूल रूप से केवल पाठ छवियों हैं. इन तस्वीरों को खोजने योग्य, संपादित योग्य पाठ दस्तावेजों में परिवर्तित करके, वृत्तचित्र प्रबंधन और सामग्री की पहुंच की संभावनाओं की एक दुनिया खुलती है. Aspose.OCR for .NET , आप पूरी तरह से खोजे जाने योग्य फ़ाइलों में स्कैनिंग कर सकते हैं।
क्यों ओसीआर (ऑप्टिकल चरित्र पहचान) स्कैन किए गए पीडीएफ के लिए महत्वपूर्ण है
डेटा निकालने के लिए :- OCR आपको स्कैन किए गए पाठ को मशीन-पढ़ने योग्य डेटा में परिवर्तित करने की अनुमति देता है, जिसे संपादित और इंडेक्स किया जा सकता है।
खोज की क्षमता:- स्कैन किए गए पीडीएफ को खोज योग्य दस्तावेजों में परिवर्तित करके, आप पृष्ठों के माध्यम से मैन्युअल रूप से खोज किए बिना प्रासंगिक जानकारी जल्दी से पा सकते हैं।
- उत्पादकता में सुधार:- स्कैनिंग दस्तावेजों को संपादित करने योग्य प्रारूपों जैसे Word या Excel में परिवर्तित करना स्वचालित करके समय बचाएं।
आवश्यकताएँ: स्कैन किए गए पीडीएफ पाठ निकालने के लिए सेटिंग्स
इससे पहले कि आप अपने स्कैन किए गए पीडीएफ से पाठ निकालना शुरू करें, सुनिश्चित करें कि निम्नलिखित चरण पूरी हों:
** .NET के लिए Aspose.OCR स्थापित करें** :- NuGet का उपयोग करके अपने परियोजना में Aspose.OCR जोड़ें:
dotnet add package Aspose.OCR
एक मीटर लाइसेंस प्राप्त करें :- Aspose.OCR लाइब्रेरी के सभी सुविधाओं को अनलॉक करने के लिए अपने मेटेड लाइसेंस सेट करें
SetMeteredKey()
.अपने स्कैन किए गए पीडीएफ को तैयार करें :- सुनिश्चित करें कि आपके स्कैन किए गए पीडीएफ उच्च गुणवत्ता वाले हैं और अधिक सटीक ओसीआर में बेहतर परिणाम प्राप्त करते हैं।
चरण-दर-चरण गाइड: स्कैन किए गए पीडीएफ से पाठ निकालना
चरण 1: आवश्यक पुस्तकालय स्थापित करें
अपने प्रोजेक्ट में Aspose.OCR for .NET स्थापित करके शुरू करें. आप इसे सीधे NuGet से कर सकते हैं.
dotnet add package Aspose.OCR
चरण 2: अपनी लाइसेंस कुंजी स्थापित करें
प्रक्रिया शुरू करने से पहले, सभी सुविधाओं को अनलॉक करने के लिए Aspose.OCR लाइसेंस सेट करें।
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
चरण 3: स्कैन किए गए पीडीएफ को OCR इनपुट ऑब्जेक्ट में लोड करें
आपको स्कैन किए गए पीडीएफ को डाउनलोड करने की आवश्यकता होगी OcrInput
Object. Aspose.OCR एक पीडीएफ के कई पृष्ठों को स्कैन करने का समर्थन करता है।
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
चरण 4: OCR इंजन का उपयोग करके स्कैन किए गए पीडीएफ को संसाधित करें
PDF लोड होने के साथ, इसे पहचान के लिए Aspose OCR इंजन पर स्थानांतरित करें।
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
चरण 5: पहचाने गए पाठ को बाहर निकालें या इसे सहेजें
एक बार जब OCR इंजन पीडीएफ को संसाधित करता है, तो आप या तो पहचाने गए पाठ को सीधे आउटपुट कर सकते हैं या इसे एक फ़ाइल में सहेजें।
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
चरण 6: OCR परिणामों का परीक्षण और अनुकूलन करें
पाठ को निकालने के बाद, सटीकता के लिए आउटपुट का परीक्षण करें. यदि आवश्यक हो, तो आप विभिन्न दस्तावेज़ सेटिंग्स के परिणामों को बेहतर बनाने में OCR सेटअप टाइप कर सकते हैं.
सामान्य समस्याएं और सुधार
1. खराब OCR सटीकता
- ** समाधान** : सुनिश्चित करें कि स्कैन किए गए पीडीएफ की गुणवत्ता उच्च है. पहचान सटीकता में सुधार के लिए उच्च रिज़ॉल्यूशन स्कैनिंग का उपयोग करें.
2. असहाय फ़ॉन्ट्स
- ** समाधान** : OCR विकल्पों में सही भाषा सेटिंग प्रदान करें ताकि गैर-लैटिन वर्णों के लिए पहचान को बढ़ाया जा सके।
3. धीमी प्रदर्शन
- ** समाधान** : अधिक तेजी से प्रसंस्करण के लिए पीडीएफ को छोटे टुकड़ों या पृष्ठों में तोड़ें, विशेष रूप से बड़े दस्तावेजों पर।