Aspose.OCR के साथ स्कैन किए गए पीडीएफ से पाठ कैसे निकालें

Aspose.OCR के साथ स्कैन किए गए पीडीएफ से पाठ कैसे निकालें

स्कैनिंग या छवि-आधारित पीडीएफ फ़ाइलों से पाठ निकालने का उपयोग जटिल कार्यप्रवाह या महंगा मैनुअल काम की आवश्यकता के लिए किया जाता है. Aspose.OCR Scanned PDF to Text for .NET के साथ, आप इस प्रक्रिया को स्वचालित कर सकते हैं, PDFs को खोजने योग्य और संपादित करने योग्य पाठ में परिवर्तित करके केवल कुछ कोड लाइनों में।

असली दुनिया की समस्या

संगठनों को अक्सर अनुबंध, रिपोर्ट या फ़ाइलें स्कैन किए गए पीडीएफ के रूप में प्राप्त होती हैं. मैन्युअल रूप से पाठ को कॉपी करना या इन दस्तावेजों के अंदर खोज करना उबाऊ और त्रुटि-प्रेरित होता है, जो अनुपालन, संग्रह और डिजिटल परिवर्तन परियोजनाओं को धीमा करता है.

समाधान समीक्षा

.NET के लिए Aspose.OCR आपको स्कैन किए गए पीडीएफ को बैच करने की अनुमति देता है – उन्हें टेक्स्ट या खोजे जाने योग्य PDF में परिवर्तित करता है, जिससे जानकारी सुलभ, सूचकांक योग्य और डिजिटल कार्यप्रवाह के लिये तैयार हो जाती है. यह त्वरित, सटीक और न्यूनतम कोड की आवश्यकता होती है।

Prerequisites

शुरू करने से पहले, सुनिश्चित करें कि आपके पास है:

  • Visual Studio 2019 या बाद में
  • .NET 6.0 या बाद में (या .Net Framework 4.6.2+)
  • NuGet से .NET के लिए Aspose.OCR
  • C# ज्ञान
PM> Install-Package Aspose.OCR

चरण-दर-चरण कार्यान्वयन

चरण 1: Aspose.OCR स्थापित करें और सेट करें

NuGet पैकेज और संदर्भ Aspose.OCR जोड़ें:

using Aspose.OCR;

चरण 2: अपने स्कैन किए गए PDF फ़ाइलों को जोड़ें

PDF इनपुट के लिए एक OcrInput आइटम बनाएं और अपने स्कैन किए गए PDF फ़ाइलों को जोड़ें।

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

चरण 3: पहचान सेटिंग्स सेट करें

अपने दस्तावेजों के अनुरूप भाषा और अन्य पहचान सेटिंग्स सेट करें।

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

चरण 4: पहचान प्रक्रिया को चलाएं

अपने स्कैन किए गए पीडीएफ से पाठ की पहचान करें:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

चरण 5: मान्यता प्राप्त पाठ को सहेजें या निर्यात करें

ज्ञात पाठ को फ़ाइलों में निर्यात करें, या परिणामों को खोज योग्य पीडीएफ में परिवर्तित करें।

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

चरण 6: त्रुटि को संभालने के लिए जोड़ें

ताकत के लिए एक कोशिश / पकड़ ब्लॉक में पहचान लपेटें।

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

चरण 7: बड़े या बहु-पृष्ठ पीडीएफ के लिए अनुकूलन करें

  • बड़ी फ़ाइलों के लिए पृष्ठ-दर-पृष्ठ पीडीएफ प्रसंस्करण
  • सर्वोत्तम परिणामों के लिए उच्च गुणवत्ता वाले स्कैन का उपयोग करें
  • बड़े संग्रहों के लिए बैच प्रक्रिया समानांतर
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

चरण 8: पूर्ण कार्य उदाहरण

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

मामलों और अनुप्रयोगों का उपयोग करें

डिजिटल संग्रह

स्कैन किए गए दस्तावेजों की पूरी पुस्तकालयों को अनुपालन और ज्ञान प्रबंधन के लिए खोज योग्य, सूचकांक योग्य फ़ाइलों में परिवर्तित करें।

कानूनी और अनुबंध प्रबंधन

समीक्षा, स्वचालन, या डिजिटल हस्ताक्षर के लिए पीडीएफ से अनुबंध की शर्तों या परिस्थितियों को निकालना।

Streamlined दस्तावेज़ खोज

फ़ाइलों, ज्ञान आधारों या फ़ैक्स में त्वरित पूर्ण पाठ खोज की अनुमति दें।

आम चुनौतियां और समाधान

चुनौती 1: कम गुणवत्ता या खराब स्कैन

समाधान: जहां संभव हो, प्री-प्रसंस्करण फ़िल्टर और उच्च गुणवत्ता वाले स्कैन का उपयोग करें।

चुनौती 2: बहुभाषी पीडीएफ

** समाधान:** कई भाषा विकल्पों के साथ पहचान सेटिंग्स या प्रक्रिया में भाषा सेट करें।

चुनौती 3: बहुत बड़े पीडीएफ फ़ाइलें

** समाधान:** बैच में या पृष्ठ पर प्रसंस्करण, और स्मृति के उपयोग की निगरानी।

प्रदर्शन विचार

  • स्कैन किए गए पीडीएफ के लिए इष्टतम डीपीआई (300+) का उपयोग करें
  • सर्वश्रेष्ठ पारगमन के लिए बैच प्रक्रिया
  • OCR वस्तुओं और बंद फ़ाइल कंट्रोल रखें

सर्वश्रेष्ठ अभ्यास

  • आगे के स्वचालन से पहले OCR उत्पादन की पुष्टि करें
  • प्रारंभिक PDF फ़ाइलों को संगठित और बैकअप करें
  • अपने कार्यप्रवाह के लिए सही SaveFormat का उपयोग करें
  • नई पीडीएफ सुविधाओं के लिए Aspose.OCR को नियमित रूप से अपडेट करें

उन्नत परिदृश्य

परिदृश्य 1: एक पीडीएफ से केवल विशिष्ट पृष्ठों को निकालना

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

परिदृश्य 2: कई प्रारूपों में निर्यात

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

.NET के लिए Aspose.OCR आपको स्कैन किए गए पीडीएफ को संचालित पाठ और खोज योग्य फ़ाइलों में परिवर्तित करने की अनुमति देता है - मैनुअल इनपुट को खत्म करता है और जानकारी को पूरे संगठन को उपलब्ध बनाता है।

अधिक जानकारी और उदाहरण के लिए, देखें .NET API संदर्भ के लिए Aspose.OCR .

 हिंदी