.NET में पीडीएफ से पाठ कैसे निकालें
इस लेख में दिखाया गया है कि .NET के लिए Aspose.PDF टेक्स्ट एक्सट्रैक्टर का उपयोग करके पीडीएफ दस्तावेजों से पाठ कैसे निकालना है. आप सभी समर्थित निष्कर्षण मोड - शुद्ध, रस और प्लेन - का इस्तेमाल करना सीखेंगे और व्यक्तिगत या बहु-पीडीए के काम के प्रवाह को स्वचालित करेंगे.
असली दुनिया की समस्या
पीडीएफ से पाठ को मैन्युअल रूप से कॉपी करना अप्रभावी और त्रुटि-प्रेरित है. डेटा विश्लेषण, दस्तावेज़ माइग्रेशन, या संग्रह में अनुप्रयोगों के लिए, स्वचालित पाठ निकालना स्थिरता, गति और सटीकता सुनिश्चित करता है।
समाधान समीक्षा
.NET के लिए Aspose.PDF पाठ निकालने वाला एक साफ, प्रोग्रामिंग इंटरफ़ेस प्रदान करता है विभिन्न प्रारूपों में पाठ का निष्कर्ष निकालें. Pure, Raw, और Plain मोड के बीच चुनें ताकि आपके उपयोग के मामले को फिट किया जा सके – चाहे आपको स्वरूपित आउटपुट, कच्चे डेटा या फ्लैट सामग्री की आवश्यकता हो।
Prerequisites
- Visual Studio 2019 या बाद में
- .NET 6.0 या बाद में
- .NET के लिए Aspose.PDF NuGet के माध्यम से स्थापित
PM> Install-Package Aspose.PDF
चरण-दर-चरण कार्यान्वयन
चरण 1: Aspose स्थापित करें और सेट करें.PDF
using Aspose.Pdf.Plugins;
using System.IO;
चरण 2: डिफ़ॉल्ट (Raw) मोड का उपयोग करके पाठ निकालना
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(); // Raw mode by default
options.AddInput(new FileDataSource("input.pdf"));
var resultContainer = extractor.Process(options);
string textExtracted = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(textExtracted);
}
चरण 3: शुद्ध या सीधे मोड में पाठ निकालना
- ** शुद्ध मोड:** रिश्तेदार पदों को बनाए रखता है और अनुकूलन के लिए स्थान जोड़ देता है।
- ** प्लान मोड:** स्ट्रिप्स प्रारूपण, न्यूनतम स्थान के साथ पाठ आउटपुट।
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure); // Or .Plain
options.AddInput(new FileDataSource("input.pdf"));
var resultContainer = extractor.Process(options);
string textExtracted = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(textExtracted);
}
उपयोग मामलों और अनुप्रयोगों (कोड वेरिएशन के साथ)
1. ** कई पीडीएफ से बैच निकालने का पाठ**
string[] files = Directory.GetFiles(@"C:\PDFs", "*.pdf");
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
foreach (var file in files)
options.AddInput(new FileDataSource(file));
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string extracted = resultContainer.ResultCollection[i].ToString();
// Save to disk, process, or analyze as needed
File.WriteAllText($@"C:\PDFs\out\{Path.GetFileNameWithoutExtension(files[i])}.txt", extracted);
}
}
2. उपयोग के मामले के आधार पर निकासी मोड का चयन करें
- Pure का उपयोग तालिका जैसी व्यवस्थाओं या अंतरिक्ष प्रारूपण के लिए करें।
- साफ डेटा निकालने या विश्लेषण के लिए Plain का उपयोग करें।
- संसाधित पाठ के लिए Raw का उपयोग करें।
3. ** पोस्ट-प्रक्रिया निकाले गए पाठ**
निकालने के बाद, regex लागू करें, पाठ सफाई, या अन्य सेवाओं (खोज, एमएल पाइपलाइन, आदि) के लिए परिणाम भेजें।
4. ** डेटा पाइपलाइनों के साथ एकीकृत निष्कर्षण**
एक व्यापक ETL, रिपोर्टिंग, या दस्तावेज प्रबंधन कार्यप्रवाह के हिस्से के रूप में स्वचालित निष्कर्षण मानक .NET प्रथाओं का उपयोग कर।
आम चुनौतियां और समाधान
** चुनौती:** जटिल पीडीएफ संरचना के कारण असंगत उत्पादन** समाधान:** विभिन्न निष्कर्षण मोड (शुद्ध, सीधा, रस) का प्रयास करें और परिणामों की तुलना करें।
** चुनौती:** बैच निकालने की गति** समाधान:** एकल का उपयोग करें TextExtractor
उदाहरण और सर्वोत्तम प्रदर्शन के लिए एक बार में कई फ़ाइलों को संसाधित करें।
** चुनौती:** विशेष पात्र या कोडिंग समस्याएंसमाधान: न्यूनतम प्रारूपण के लिए सीधे मोड का उपयोग करें, फिर आवश्यकतानुसार अनुकूलित श्रृंखला प्रसंस्करण लागू करें।
प्रदर्शन और सर्वश्रेष्ठ अभ्यास
- अपने दस्तावेज़ प्रकार के लिए सर्वोत्तम परिणाम निर्धारित करने के लिये सभी तीन निष्कर्षण मोड का परीक्षण करें
- बैच ऑपरेशन से पहले मूल पीडीएफ सहेजें
- बैच नौकरियों में उत्पादन फ़ाइल नाम और संगठन का व्यापार करें
- स्थिरता के लिए एकीकृत त्रुटि प्रबंधन और लॉगिंग
पूर्ण कार्यान्वयन उदाहरण
using Aspose.Pdf.Plugins;
using System;
using System.IO;
class Program
{
static void Main()
{
using (var extractor = new TextExtractor())
{
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Plain);
options.AddInput(new FileDataSource(@"C:\PDFs\input.pdf"));
var resultContainer = extractor.Process(options);
string textExtracted = resultContainer.ResultCollection[0].ToString();
File.WriteAllText(@"C:\PDFs\output.txt", textExtracted);
}
}
}
Conclusion
Aspose.PDF Text Extractor for .NET आपको कई प्रारूपों में पाठ निकालने के लिए शक्तिशाली, लचीले उपकरण प्रदान करता है – डेटा प्रसंस्करण, संग्रह, या विश्लेषण के अनुरूप।