Aspose.OCR के साथ बहु-पृष्ठ पीडीएफ से डेटा निकालने के लिए कैसे स्वचालित करें
स्कैनरों, संग्रहालयों या कॉर्पोरेट कार्यप्रवाहों से बहु-पृष्ठ पीडीएफ अक्सर अनौपचारिक पाठ और तालिकाओं की विशाल मात्रा रखते हैं. मैन्युअल निष्कर्षण धीमा है और स्केल नहीं किया जा सकता. .NET के लिए Aspose.OCR लंबे, जटिल PDFs से पाठ, टेबल और संरचना का निकालना स्वचालित करता है, न्यूनतम कोड के साथ।
असली दुनिया की समस्या
कानूनी, वित्तीय और अकादमिक संग्रह नियमित रूप से बहु-पृष्ठ स्कैन किए गए पीडीएफ के साथ संभालते हैं जिसमें सैकड़ों पृष्ठ होते हैं. मैनुअल पाठ और डेटा निकालना त्रुटि-प्रेरित है और काम तीव्र है.
समाधान समीक्षा
.NET के लिए Aspose.OCR बैच प्रक्रिया और प्रत्येक पृष्ठ से पाठ / तालिकाओं को एक बहु-पृष्ठ पीडीएफ में निकाल सकता है. आप पृष्ठ रैंकों, निर्यात प्रारूपों, और व्यवसाय अनुप्रयोगों या डिजिटल फाइलों के साथ स्वचालित एकीकरण निर्दिष्ट कर सकते हैं.
Prerequisites
- Visual Studio 2019 या बाद में
- .NET 6.0 या बाद में (या .Net Framework 4.6.2+)
- NuGet से .NET के लिए Aspose.OCR
- C# प्रोग्रामिंग कौशल
PM> Install-Package Aspose.OCR
चरण-दर-चरण कार्यान्वयन
चरण 1: Aspose.OCR स्थापित करें और सेट करें
using Aspose.OCR;
चरण 2: कई पृष्ठों के पीडीएफ फ़ाइलों को जोड़ें
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf"); // all pages
input.Add("report.pdf", 5, 10); // pages 5-14
चरण 3: पहचान सेटिंग्स और पृष्ठ रैंकिंग सेट करें
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
चरण 4: प्रत्येक पृष्ठ से पाठ और तालिका निकालना
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
चरण 5: प्रत्येक पृष्ठ के लिए निर्यात परिणाम
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
चरण 6: त्रुटियों को संभालना और डेटा सत्यापित करना
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
चरण 7: बड़े फ़ाइलों और बैच नौकरियों के लिए अनुकूलन
- फ़ोल्डर में पीडीएफ को निर्देशिका द्वारा संसाधित करें
- गति के लिए चयनित पृष्ठ प्रसंस्करण का उपयोग करें
- स्मृति / सीपीयू का उपयोग करें
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
चरण 8: पूर्ण उदाहरण
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("archive.pdf");
input.Add("report.pdf", 5, 10);
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.AUTO;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
int page = 1;
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.txt", SaveFormat.Text);
result.Save($"output_page_{page}.xlsx", SaveFormat.Xlsx);
result.Save($"output_page_{page}.json", SaveFormat.Json);
page++;
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
मामलों और अनुप्रयोगों का उपयोग करें
कानूनी और अनुपालन संग्रह
अनुबंधों, अदालतों या सरकारी रिकॉर्डों से पूर्ण सामग्री निकालना खोज और अनुपालन के लिए।
अकादमिक और अनुसंधान संग्रह
विश्लेषण या ई-लर्निंग के लिए पत्रिकाओं, शोध प्रबंधों या डेटा तालिकाओं को डिजिटल और विभाजित करें।
वित्तीय और लेखांकन कार्यप्रवाह
बड़े बयानों के संग्रह, रिपोर्टों और स्पीडबोर्ड से स्वचालित निकालना।
आम चुनौतियां और समाधान
चुनौती 1: असंगत पृष्ठ लेआउट
** समाधान:** AUTO डिटेक्शन का उपयोग करें या पृष्ठ रेंज के लिए अलग-अलग मोड सेट करें।
चुनौती 2: बहुत बड़े पीडीएफ
** समाधान:** बैच में प्रसंस्करण; बेहतर स्मृति प्रदर्शन के लिए विभाजित फ़ाइलों।
चुनौती 3: मिश्रित सामग्री (टेक्स्ट, तालिकाओं, छवियों)
** समाधान:** वैलिडिट और पोस्ट-प्रोसेस आउटपुट; टोन डिटेक्शन मोड।
प्रदर्शन विचार
- बड़े पीडीएफ को अधिक स्मृति / सीपीयू की आवश्यकता होती है
- सर्वश्रेष्ठ प्रदर्शन के लिए बैच नौकरियां आउट-hours
- एकीकरण से पहले आउटपुट नमूनों की पुष्टि करें
सर्वश्रेष्ठ अभ्यास
- आसानी से ट्रैकिंग के लिए नामकरण सम्मेलनों का उपयोग करें
- कई पृष्ठों के पीडीएफ को विभाजित करें यदि फ़ाइलें बहुत बड़ी हैं
- स्रोत और आउटपुट दोनों दस्तावेजों को सुरक्षित रखें
- महत्वपूर्ण कार्यप्रवाहों में पुष्टिकरण और स्पॉट-चेक आउटपुट
उन्नत परिदृश्य
परिदृश्य 1: पृष्ठ के लिए खोज योग्य पीडीएफ में निर्यात
foreach (RecognitionResult result in results)
{
result.Save($"output_page_{page}.pdf", SaveFormat.Pdf);
page++;
}
परिदृश्य 2: डेटाबेस या क्लाउड के साथ एकीकरण
foreach (RecognitionResult result in results)
{
string json = File.ReadAllText($"output_page_{page}.json");
// Upload json or send to a cloud endpoint
}
Conclusion
.NET के लिए Aspose.OCR मजबूत, स्केल करने योग्य पाठ और बहु-पृष्ठ पीडीएफ से संरचित डेटा निकालने की अनुमति देता है - मैन्युअल प्रयास के घंटों को बचाता है और कार्यप्रवाह स्वचालन में सुधार करता है।
अधिक पीडीएफ और बैच प्रसंस्करण उदाहरण देखें .NET API संदर्भ के लिए Aspose.OCR .