पाठ एक्सट्रैक्टर प्लगइन के लिए Aspose.PDF
.NET के लिए Aspose.PDF टेक्स्ट एक्सट्रैक्टर प्लगइन डेवलपर्स को पीडीएफ फ़ाइलों से पाठ सामग्री निकालने की अनुमति देता है - संरचित, फ्लैट, या इसी तरह. तीन निष्कर्षण मोड के साथ, यह दस्तावेज़ रूपांतरण, डेटा खनन, सुलभता में सुधार, और इतने पर आदर्श है।
अंतिम लेख
Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन कुंजी सुविधाएँ
- बहुआयामी निष्कर्षण मोड*अधिकतम लचीलापन के लिए शुद्ध (संपादित), कच्चे (स-स) या फ्लैट (शुद्ध) के रूप में पाठ निकालें।
बैच पीडीएफ प्रसंस्करणएक साथ निष्कर्षण और अनुकूलित कार्यप्रवाह के लिए कई पीडीएफ जोड़ें।
- सरल .NET Integration*Straightforward API – किसी भी C# या .NET परियोजना को तेजी से तैनात करने के लिए जोड़ें।
** Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन के साथ शुरू करने के लिए**
** .NET के लिए Aspose.PDF स्थापित करें**NuGet के माध्यम से जोड़ें या अपने .NET समाधान में संग्रह डाउनलोड करें।
** अपनी लाइसेंस सेट करें**असीमित प्रसंस्करण और समर्थन के लिए सक्रिय करें।
संपादित करें निष्कर्षण विकल्पUse
TextExtractor
औरTextExtractorOptions
इच्छित के रूप में निष्कर्षण मोड सेट करें (शुद्ध, रस, सीधा)।प्रक्रिया और पाठ पुनर्प्राप्त करेंपरिणाम कंटेनर संग्रह के माध्यम से निष्कर्षण और एक्सेस परिणाम चलाएं।
उदाहरण: PDF (C#) से पाठ निकालना
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
उदाहरण: कई पीडीएफ से बैच निकालने का पाठ
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
उपयोग के मामले और विस्तार
- PDF to TXT रूपांतरण: इंडेक्सिंग, खोज, या संग्रह के लिए पीडीएफ को स्पष्ट पाठ में स्वचालित रूप से परिवर्तित करें।
- डेटा खनन: अतिरिक्त प्रसंस्करण या विश्लेषण के लिए तालिका डेटा, बिल, या फॉर्म निकालें।
- अनुकूलता: स्क्रीन पाठकों या वैकल्पिक प्रारूपों के लिए पढ़ने योग्य सामग्री तैयार करें।
- बैच प्रोसेसिंग: विशिष्ट डाउनस्ट्रीम कार्यप्रवाहों के लिए निष्कर्षण मोड का उपयोग करें (उदाहरण में, ओसीआर प्री-प्रसंस्करण, इकाई पहचान)।
उन्नत निष्कर्षण के लिए - जैसे कि एन्क्रिप्टेड पीडीएफ का प्रबंधन, या पाठ आउटपुट को अनुकूलित करना - आधिकारिक एपीआई संदर्भ पर जाएं।
सर्वश्रेष्ठ प्रथाएँ *
- हमेशा उस निष्कर्षण मोड का चयन करें जो आपके आउटपुट की जरूरतों (प्रकार, कच्चे, या साफ) के अनुरूप है।
- बड़े दस्तावेज़ सेट के लिए, बैच प्रक्रिया पारगमन को अधिकतम करने और मैन्युअल प्रयास को कम करने में सक्षम है।
- डेटा सटीकता सुनिश्चित करने के लिए वास्तविक दुनिया के पीडीएफ के साथ परीक्षण निकालने के परिणाम।
संबंधित संसाधन: