.NET में स्कैन किए गए पीडीएफ को खोज योग्य पाठ दस्तावेजों में कैसे परिवर्तित करें

.NET में स्कैन किए गए पीडीएफ को खोज योग्य पाठ दस्तावेजों में कैसे परिवर्तित करें

स्कैन किए गए पीडीएफ के साथ काम करने के लिए अक्सर चुनौतीपूर्ण होते हैं क्योंकि वे मूल रूप से केवल पाठ छवियों हैं. इन तस्वीरों को खोजने योग्य, संपादित योग्य पाठ दस्तावेजों में परिवर्तित करके, वृत्तचित्र प्रबंधन और सामग्री की पहुंच की संभावनाओं की एक दुनिया खुलती है. Aspose.OCR for .NET , आप पूरी तरह से खोजे जाने योग्य फ़ाइलों में स्कैनिंग कर सकते हैं।

क्यों स्कैन किए गए पीडीएफ को खोज योग्य पाठ दस्तावेजों में परिवर्तित करें?

    • उपलब्धता के लिए:- स्कैन किए गए सामग्री को खोजने योग्य बनाएं, जिससे दस्तावेज़ के माध्यम से मैन्युअल रूप से पढ़ने के बिना जानकारी ढूंढना आसान हो जाता है।
  • सामग्री संपादित करें:- पाठ में परिवर्तित होने के बाद, सामग्री को संपादित, अद्यतन या अन्य प्रारूपों में फिर से उपयोग किया जा सकता है।

    • प्रभावी ढंग से:- स्कैन किए गए पीडीएफ को पूरी तरह से सुलभ पाठ दस्तावेजों में परिवर्तित करने की प्रक्रिया को स्वचालित करके समय बचाएं।

आवश्यकताएँ: स्कैन किए गए पीडीएफ पाठ निकालने के लिए सेटिंग्स

स्कैन किए गए पीडीएफ से पाठ निकालने से पहले, यह सुनिश्चित करने के लिए इन चरणों का पालन करें कि सब कुछ सेट किया गया है:

  • ** .NET के लिए Aspose.OCR स्थापित करें** :- NuGet का उपयोग करके अपने परियोजना में Aspose.OCR जोड़ें: dotnet add package Aspose.OCR

  • ** अपनी लाइसेंस प्राप्त करें** :- अपने मेट्रिक लाइसेंस का उपयोग करें SetMeteredKey() Aspose.OCR के पूर्ण कार्यक्षमता को अनलॉक करने के लिए।

  • अपने स्कैन किए गए पीडीएफ को तैयार करें :- सुनिश्चित करें कि स्कैन किए गए पीडीएफ बेहतर पहचान सटीकता के लिए अच्छी गुणवत्ता वाले हैं।

चरण-दर-चरण गाइड: स्कैन किए गए पीडीएफ को खोज योग्य पाठ में परिवर्तित करना

चरण 1: अपना लाइसेंस स्थापित करें

सभी सुविधाओं को अनलॉक करने के लिए अपने Aspose.OCR लाइसेंस को सेट करके शुरू करें।

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

चरण 2: स्कैन किए गए पीडीएफ को OCR इनपुट ऑब्जेक्ट में लोड करें

इसके बाद, ओसीआर प्रक्रिया शुरू करने के लिए स्कैन किए गए पीडीएफ को OcrInput वस्तु में लोड करें।

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

चरण 3: पहचान के लिए OCR इंजन सेट करें

ओसीआर इंजन सेट करें और किसी भी पहचान सेटिंग्स, जैसे भाषा और सटीकता को समायोजित करें।

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

चरण 4: अनुमोदित पाठ को निकालना और बाहर निकालें

अब, ओसीआर इंजन का उपयोग करके स्कैन किए गए पीडीएफ से पाठ निकालें।

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

चरण 5: खोज योग्य PDF का परीक्षण करें

यह सुनिश्चित करें कि निकाले गए पाठ को एक पीडीएफ ब्राउज़र या संपादक में आउटपुट का परीक्षण करके खोज और संपादन किया जा सकता है।

सामान्य समस्याएं और सुधार

1. कम OCR सटीकता

  • ** समाधान** : यह सुनिश्चित करें कि स्कैन किए गए पीडीएफ को उच्च गुणवत्ता (कम से कम 300 डीपीआई) है ताकि पहचान परिणामों में सुधार हो सके।

2. असहाय फ़ॉन्ट्स

  • ** समाधान** : सटीक पाठ पहचान के लिए ओसीआर सेटिंग्स में सही भाषा सेट करें, विशेष रूप से गैर-लैटिन वर्णों पर।

3. बड़े पीडीएफ के लिए धीमी प्रदर्शन

  • ** समाधान** : बड़े पीडीएफ के लिए, स्मृति का उपयोग कम करने और प्रक्रिया को तेज करने के उद्देश्य से दस्तावेज़ को छोटे टुकड़ों या पृष्ठों में संसाधित करें।
 हिंदी