छवियों में तालिकाओं और रूपों से संरचित डेटा निकालने के लिए कैसे

छवियों में तालिकाओं और रूपों से संरचित डेटा निकालने के लिए कैसे

स्कैन किए गए तालिकाओं या भर दिए गए फॉर्म से डेटा निकालना व्यवसाय के स्वचालन, रिपोर्टिंग और अनुपालन के लिए आवश्यक है. .NET में Aspose.OCR टेबल-टू-टेक्स्ट इस प्रक्रिया को सरल बनाता है, सटीक ढंग से सेल और फ़ील्ड संरचना का पता लगाने और संपादित करने योग्य प्रारूपों में निर्यात करता है।

असली दुनिया की समस्या

व्यवसाय अक्सर छवियों या स्कैन के रूप में बिलों, रिपोर्टों या फॉर्म प्राप्त करते हैं. तालिका डेटा या फ़ॉर्म फ़ील्डों का मैनुअल इनपुट धीमा, त्रुटि-प्रेरित है, और बड़े पैमाने पर महंगा है.

समाधान समीक्षा

.NET के लिए टेबल-टू-टेक्स्ट के साथ, आप सीधे छवियों से संरचित डेटा निकाल सकते हैं – जिसमें पंक्तियां, स्तंभ और फ़ील्ड मूल्यों शामिल हैं. परिणामों को Excel, JSON में निर्यात किया जा सकता है, या डाटाबेस और स्वचालन प्लेटफार्मों में एकीकृत किया जाता है.

Prerequisites

  • Visual Studio 2019 या बाद में
  • .NET 6.0 या बाद में (या .Net Framework 4.6.2+)
  • NuGet से .NET के लिए Aspose.OCR
  • C# कौशल
PM> Install-Package Aspose.OCR

चरण-दर-चरण कार्यान्वयन

चरण 1: Aspose.OCR स्थापित करें और सेट करें

using Aspose.OCR;

चरण 2: टेबल या फॉर्म छवियों को तैयार करें

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

चरण 3: तालिकाओं / फॉर्मों के लिए पहचान सेटिंग्स सेट करें

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

चरण 4: तालिका या फॉर्म डेटा निकालना

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

चरण 5: निर्यात संरचित आउटपुट

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

चरण 6: गलतियों को संभालना और परिणामों को सत्यापित करना

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

चरण 7: तालिका / फॉर्म वेरिएशन के लिए अनुकूलन

  • विभिन्न सीमाओं, फ़ॉन्ट्स या फ़ील्ड प्लेसमेंट के साथ नमूनों पर परीक्षण
  • सर्वोत्तम पहचान के लिए प्री-प्रोसेसिंग सेटिंग्स

चरण 8: स्वचालित बैच निष्कर्षण

एक फ़ोल्डर में सभी प्रासंगिक छवियों को संसाधित करें:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

चरण 9: पूर्ण उदाहरण

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

मामलों और अनुप्रयोगों का उपयोग करें

बिल और रिपोर्ट ऑटोमेशन

लेखांकन या विश्लेषण के लिए वित्तीय डेटा निकालना।

सर्वेक्षण और पंजीकरण फॉर्म

CRM, ERP या BI प्रणालियों के लिए संरचित प्रतिक्रियाओं को प्लग करें।

अनुपालन और ऑडिट

प्रस्तुत फॉर्म या तालिकाओं से डेटा का स्वचालित निष्कर्ष निकालें और वैध करें।

आम चुनौतियां और समाधान

चुनौती 1: अनियमित टेबल सीमाओं या लेआउट

** समाधान:** पहचान में सुधार के लिए प्री-प्रसंस्करण और नमूना ट्यूनिंग का उपयोग करें।

चुनौती 2: मिश्रित सामग्री (टेक्स्ट और तालिका)

समाधान: सर्वश्रेष्ठ परिणाम के लिए AUTO के साथ चलाएं या छवि प्रकार के अनुसार अलग करें।

चुनौती 3: कई क्षेत्रों के साथ जटिल रूप

समाधान: उच्च घनत्व के रूपों के लिए परीक्षण और ट्विक पहचान।

प्रदर्शन विचार

  • टेबल पहचान अधिक सीपीयू-केंद्रित है; बैच नौकरियों की निगरानी
  • महत्वपूर्ण कार्यप्रवाहों के लिए आउटपुट की पुष्टि करें
  • अन्य उपकरणों के साथ एकीकरण के लिए बैच निर्यात

सर्वश्रेष्ठ अभ्यास

  • स्केलिंग से पहले नमूनों पर संरचित डेटा सत्यापित करें
  • सुरक्षित और संग्रहीत दोनों स्रोत छवियों और निकाले गए आउटपुट
  • सटीकता में सुधार के लिए Aspose.OCR को नियमित रूप से अपडेट करें
  • नए दस्तावेज़ लेआउट के लिए ट्यूनिंग सेटिंग्स

उन्नत परिदृश्य

परिदृश्य 1: डेटाबेस या BI टूलों में निर्यात

// Use JSON or Excel export for integration with data pipelines

परिदृश्य 2: वेब ऐप्स में वास्तविक समय निष्कर्षण

// Integrate extraction logic into ASP.NET or workflow API

Conclusion

.NET के लिए Aspose.OCR टेबल-टू-टेक्स्ट आपको छवियों और फॉर्मों से संरचित डेटा निष्कर्षण को स्वचालित करने में सक्षम बनाता है, व्यापार स्वचालन से अनुपालन और विश्लेषण तक सब कुछ समर्थन करता है।

प्रगतिशील टेबल निष्कर्षण सुविधाओं के लिए, देखें .NET API संदर्भ के लिए Aspose.OCR .

 हिंदी