.NET में स्कैन किए गए पीडीएफ को खोज योग्य पाठ दस्तावेजों में कैसे परिवर्तित करें

.NET में स्कैन किए गए पीडीएफ को खोज योग्य पाठ दस्तावेजों में कैसे परिवर्तित करें

स्कैन किए गए पीडीएफ आमतौर पर गैर-संपादित, छवि-आधारित फ़ाइलें हैं, जिससे उनसे पाठ निकालना मुश्किल हो जाता है. हालांकि, Aspose.OCR for .NET के साथ, आप जल्दी से इन स्कैनिंग PDFs को संपादन योग्य, खोज योग्य पाठ दस्तावेजों में परिवर्तित कर सकते हैं जो डेटा रिकॉर्डिंग और वस्तु प्रबंधन को बहुत आसान बनाते हैं.

क्यों आपको स्कैन किए गए पीडीएफ को खोज योग्य पाठ में परिवर्तित करना चाहिए?

    • उपलब्धता बढ़ाने के लिए:- स्कैन किए गए पीडीएफ को पाठ में परिवर्तित किया जा सकता है जो खोज और संपादन योग्य है, जिससे सामग्री के लिए बेहतर पहुंच प्रदान की जा सकती है।
    • डेटा संगठित करने के लिए:- एक बार रूपांतरित, पाठ को व्यवस्थित किया जा सकता है, संभालने के लिए, और विभिन्न प्रारूपों जैसे Word, Excel, या फ्लैट पाठ में पुन: उपयोग कर सकते हैं।
  • सामग्री रखरखाव:- Aspose.OCR यह सुनिश्चित करता है कि मूल छवियों और लेआउट को बनाए रखा जाता है, जब तक कि पाठ निकाल दिया जाता था, आपको दोनों सामग्री और संदर्भ देता है।

आवश्यकताएँ: स्कैन किए गए पीडीएफ रूपांतरण के लिए तैयार होना

स्कैन किए गए पीडीएफ से पाठ निकालने की प्रक्रिया शुरू करने से पहले, निम्नलिखित सुनिश्चित करें:

  • ** .NET के लिए Aspose.OCR स्थापित करें** :- आदेश के साथ NuGet का उपयोग करके आवश्यक पुस्तकालय स्थापित करें: dotnet add package Aspose.OCR

  • ** लाइसेंस सेटअप** :- एक मेटेड लाइसेंस प्राप्त करें और कॉन्फ़िगर करें SetMeteredKey() सभी सुविधाओं को अनलॉक करने का तरीका।

  • अपने स्कैन किए गए पीडीएफ को तैयार करें :- सुनिश्चित करें कि आपके स्कैन किए गए पीडीएफ अच्छे गुणवत्ता में हैं (300 डीपीआई या उससे अधिक) सर्वोत्तम OCR परिणामों के लिए।

चरण-दर-चरण गाइड स्कैन किए गए पीडीएफ को पाठ में परिवर्तित करने के लिए

चरण 1: अपनी लाइसेंस सेट करें

Aspose.OCR लाइसेंस सेट करके शुरू करें ताकि सुविधाओं तक पूर्ण पहुंच सुनिश्चित हो सके।

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

चरण 2: स्कैन किए गए पीडीएफ को OCR इनपुट ऑब्जेक्ट में लोड करें

पाठ पहचान के लिए स्कैन किए गए पीडीएफ फ़ाइल को ओसीआर इंजन में लोड करें।

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

चरण 3: पहचान के लिए OCR इंजन सेट करें

स्कैन किए गए पीडीएफ से पाठ निकालने को अनुकूलित करने के लिए ओसीआर इंजन सेट करें।

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

चरण 4: अनुमोदित पाठ को निकालना और सहेजना

पाठ को निकालने के लिए स्कैन किए गए पीडीएफ को संसाधित करें और इसे एक फ़ाइल में आउटपुट करें।

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

चरण 5: मान्यता प्राप्त पाठ का परीक्षण करें

निकालने के बाद, पाठ पहचान की सटीकता की जांच करके आउटपुट फ़ाइल या इसे कंसोल पर प्रदर्शित करके।

सामान्य समस्याएं और सुधार

1. खराब OCR सटीकता

  • ** समाधान** : बेहतर पहचान सटीकता के लिए स्कैन किए गए पीडीएफ की उच्च गुणवत्ता (300 डीपीआई या उससे अधिक) सुनिश्चित करें।

2. गलत भाषा पहचान

  • **Solution ** : बेहतर परिणामों के लिए RecognitionSettings में भाषा सेटिंग्स को स्पष्ट रूप से निर्दिष्ट करें, खासकर गैर-लैटिन वर्णों में।

3. बड़े फ़ाइलों के लिए धीमी प्रदर्शन

  • ** समाधान** : ओसीआर प्रक्रिया को तेज करने के लिए बड़े पीडीएफ को टुकड़ों में संसाधित करें या स्मृति का उपयोग अनुकूलन करें।
 हिंदी