पाठ एक्सट्रैक्टर प्लगइन के लिए Aspose.PDF

NET के लिए Aspose.PDF टेक्स्ट एक्सट्रैक्टर प्लगइन डेवलपर्स को पाठ सामग्री - संरचित, फ्लैट, या एएस-आईएस - से निकालने की अनुमति देता ह पीडीएफ तीन निष्कर्षण मोड के साथ, यह दस्तावेज़ रूपांतरण, डेटा खनन, सुलभता में सुधार, और अधिक के लिए आदर्श ह.

अंतिम लेख

Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन कुंजी सुविधाए

  • बहुआयामी निष्कर्षण मोडअधिकतम लचीलापन के लिए शुद्ध (संपादित), कच्चे (स-स) या फ्लैट (शुद्ध) के रूप में पाठ निकाल.

  • बैच पीडीएफ प्रसंस्करणएक साथ निष्कर्षण और अनुकूलित कार्यप्रवाह के लिए कई पीडीएफ जोड.

  • सरल .NET IntegrationStraightforward API – किसी भी C# या .NET परियोजना को तेजी से तैनात करने के लिए जोड.

Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन के साथ शुरू करने के लिए

  • NET के लिए Aspose.PDF स्थापित करNuGet के माध्यम से जोड़ें या अपने .NET समाधान में संग्रह डाउनलोड कर.

  • अपनी लाइसेंस सेट करअसीमित प्रसंस्करण और समर्थन के लिए सक्रिय कर.

  • संपादित करें निष्कर्षण विकल्पUse TextExtractor और TextExtractorOptions इच्छित के रूप में निष्कर्षण मोड सेट करें (शुद्ध, रस, सीध).

  • प्रक्रिया और पाठ पुनर्प्राप्त करपरिणाम कंटेनर संग्रह के माध्यम से निष्कर्षण और एक्सेस परिणाम चलाए.

उदाहरण: PDF (C#) से पाठ निकालन#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

उदाहरण: कई पीडीएफ से बैच निकालने का पाठ

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

उपयोग के मामले और विस्तार

  • PDF to TXT रूपांतरण: इंडेक्सिंग, खोज, या संग्रह के लिए पीडीएफ को स्पष्ट पाठ में स्वचालित रूप से परिवर्तित कर.
  • डेटा खनन: अतिरिक्त प्रसंस्करण या विश्लेषण के लिए तालिका डेटा, बिल, या फॉर्म निकाल.
  • अनुकूलता: स्क्रीन पाठकों या वैकल्पिक प्रारूपों के लिए पढ़ने योग्य सामग्री तैयार कर.
  • बैच प्रोसेसिंग: विशिष्ट डाउनस्ट्रीम कार्यप्रवाहों के लिए निष्कर्षण मोड का उपयोग करें (उदाहरण में, ओसीआर प्री-प्रसंस्करण, इकाई पहचान).

उन्नत निष्कर्षण के लिए - जैसे कि एन्क्रिप्टेड पीडीएफ का प्रबंधन, या पाठ आउटपुट को अनुकूलित करना - आधिकारिक एपीआई संदर्भ पर जाए.

सर्वश्रेष्ठ प्रथाए

  • हमेशा उस निष्कर्षण मोड का चयन करें जो आपके आउटपुट की जरूरतों (प्रकार, कच्चे, या साफ) के अनुरूप ह).
  • बड़े दस्तावेज़ सेट के लिए, बैच प्रक्रिया पारगमन को अधिकतम करने और मैन्युअल प्रयास को कम करने में सक्षम ह.
  • डेटा सटीकता सुनिश्चित करने के लिए वास्तविक दुनिया के पीडीएफ के साथ परीक्षण निकालने के परिणाम.

संबंधित संसाधन:

 हिंदी