पाठ एक्सट्रैक्टर प्लगइन के लिए Aspose.PDF
NET के लिए Aspose.PDF टेक्स्ट एक्सट्रैक्टर प्लगइन डेवलपर्स को पाठ सामग्री - संरचित, फ्लैट, या एएस-आईएस - से निकालने की अनुमति देता ह पीडीएफ तीन निष्कर्षण मोड के साथ, यह दस्तावेज़ रूपांतरण, डेटा खनन, सुलभता में सुधार, और अधिक के लिए आदर्श ह.
अंतिम लेख
Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन कुंजी सुविधाए
बहुआयामी निष्कर्षण मोडअधिकतम लचीलापन के लिए शुद्ध (संपादित), कच्चे (स-स) या फ्लैट (शुद्ध) के रूप में पाठ निकाल.
बैच पीडीएफ प्रसंस्करणएक साथ निष्कर्षण और अनुकूलित कार्यप्रवाह के लिए कई पीडीएफ जोड.
सरल .NET IntegrationStraightforward API – किसी भी C# या .NET परियोजना को तेजी से तैनात करने के लिए जोड.
Aspose.PDF पाठ एक्सट्रैक्टर प्लगइन के साथ शुरू करने के लिए
NET के लिए Aspose.PDF स्थापित करNuGet के माध्यम से जोड़ें या अपने .NET समाधान में संग्रह डाउनलोड कर.
अपनी लाइसेंस सेट करअसीमित प्रसंस्करण और समर्थन के लिए सक्रिय कर.
संपादित करें निष्कर्षण विकल्पUse
TextExtractorऔरTextExtractorOptionsइच्छित के रूप में निष्कर्षण मोड सेट करें (शुद्ध, रस, सीध).प्रक्रिया और पाठ पुनर्प्राप्त करपरिणाम कंटेनर संग्रह के माध्यम से निष्कर्षण और एक्सेस परिणाम चलाए.
उदाहरण: PDF (C#) से पाठ निकालन#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);उदाहरण: कई पीडीएफ से बैच निकालने का पाठ
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}उपयोग के मामले और विस्तार
- PDF to TXT रूपांतरण: इंडेक्सिंग, खोज, या संग्रह के लिए पीडीएफ को स्पष्ट पाठ में स्वचालित रूप से परिवर्तित कर.
- डेटा खनन: अतिरिक्त प्रसंस्करण या विश्लेषण के लिए तालिका डेटा, बिल, या फॉर्म निकाल.
- अनुकूलता: स्क्रीन पाठकों या वैकल्पिक प्रारूपों के लिए पढ़ने योग्य सामग्री तैयार कर.
- बैच प्रोसेसिंग: विशिष्ट डाउनस्ट्रीम कार्यप्रवाहों के लिए निष्कर्षण मोड का उपयोग करें (उदाहरण में, ओसीआर प्री-प्रसंस्करण, इकाई पहचान).
उन्नत निष्कर्षण के लिए - जैसे कि एन्क्रिप्टेड पीडीएफ का प्रबंधन, या पाठ आउटपुट को अनुकूलित करना - आधिकारिक एपीआई संदर्भ पर जाए.
सर्वश्रेष्ठ प्रथाए
- हमेशा उस निष्कर्षण मोड का चयन करें जो आपके आउटपुट की जरूरतों (प्रकार, कच्चे, या साफ) के अनुरूप ह).
- बड़े दस्तावेज़ सेट के लिए, बैच प्रक्रिया पारगमन को अधिकतम करने और मैन्युअल प्रयास को कम करने में सक्षम ह.
- डेटा सटीकता सुनिश्चित करने के लिए वास्तविक दुनिया के पीडीएफ के साथ परीक्षण निकालने के परिणाम.
संबंधित संसाधन: