Πώς να εξαγάγετε δομημένα δεδομένα από πίνακες και σχήματα σε εικόνες

Πώς να εξαγάγετε δομημένα δεδομένα από πίνακες και σχήματα σε εικόνες

Η εξόρυξη δεδομένων από σαρωμένους πίνακες ή συμπληρωμένες φόρμες είναι απαραίτητη για την επιχειρηματική αυτοματοποίηση, την αναφορά και τη συμμόρφωση. το Aspose.OCR Table to Text for .NET απλοποιεί αυτή τη διαδικασία, ανιχνεύοντας με ακρίβεια τη δομή κυττάρων και πεδίων και εξάγοντας σε επεξεργαζόμενες μορφές.

Το πρόβλημα του πραγματικού κόσμου

Οι επιχειρήσεις συχνά λαμβάνουν τιμολόγια, εκθέσεις ή φόρμες ως εικόνες ή σαρώσεις. Η χειροκίνητη εισαγωγή των δεδομένων πίνακα ή πεδίων μορφής είναι αργή, ελαττωματική και δαπανηρή σε κλίμακα.

Συνοπτική λύση

Με τον πίνακα σε κείμενο για .NET, μπορείτε να εξάγετε δομημένα δεδομένα - συμπεριλαμβανομένων γραμμών, στήλες και τιμές πεδίου - απευθείας από τις εικόνες. Τα αποτελέσματα μπορούν να εκτεθούν στο Excel, JSON ή να ενσωματωθούν με βάσεις δεδομένων και πλατφόρμες αυτοματισμού.

Προϋποθέσεις

  • Visual Studio 2019 ή αργότερα
  • .NET 6.0 ή μεταγενέστερος (ή .Net Framework 4.6.2+)
  • Aspose.OCR για .NET από το NuGet
  • Βασικές δεξιότητες C#
PM> Install-Package Aspose.OCR

Βήμα προς βήμα εφαρμογή

Βήμα 1: Εγκατάσταση και διαμόρφωση Aspose.OCR

using Aspose.OCR;

Βήμα 2: Ετοιμάστε πίνακες ή εικόνες φόρμας

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Βήμα 3: Ρυθμίστε τις ρυθμίσεις αναγνώρισης για πίνακες / φόρμες

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Βήμα 4: Αποκτήστε τα δεδομένα πίνακα ή φόρμας

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Βήμα 5: Εξαγωγή διαρθρωμένων εξαγωγών

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Βήμα 6: Αντιμετώπιση σφαλμάτων και επικυρώσεις αποτελεσμάτων

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Βήμα 7: Βελτιστοποίηση των διακυμάνσεων πίνακα / φόρμας

  • Δοκιμή σε δείγματα με διαφορετικά όρια, γραμματοσειρά ή τοποθεσίες πεδίου
  • Προκαταρκτικές ρυθμίσεις για την καλύτερη ανίχνευση

Βήμα 8: Αυτόματη εκχύλιση Batch

Επεξεργασία όλων των σχετικών εικόνων σε ένα φάκελο:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Βήμα 9: Συμπληρωματικό παράδειγμα

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Χρήση περιπτώσεων και εφαρμογών

Φορολογία και αυτοματισμός αναφορών

Εξαγωγή χρηματοοικονομικών δεδομένων για λογιστική ή ανάλυση.

Φόρμες έρευνας και καταχώρισης

Παίξτε δομημένες απαντήσεις για συστήματα CRM, ERP ή BI.

Συμμόρφωση και έλεγχος

Αυτόματη εξόρυξη και επικύρωση δεδομένων από υποβληθείσες φόρμες ή πίνακες.

Κοινές προκλήσεις και λύσεις

Πρόκληση 1: Ανεπαρκείς οριακές γραμμές πίνακα ή διατάξεις

Λύση: Χρησιμοποιήστε προκαταρκτική επεξεργασία και δείγμα για να βελτιώσετε την ανίχνευση.

Προκλήσεις 2: Μεικτό περιεχόμενο (έγγραφο και πίνακες)

Λύση: Δουλεύει με το AUTO ή ξεχωρίζει ανά τύπο εικόνας για τα καλύτερα αποτελέσματα.

Πρόκληση 3: Σύνθετες μορφές με πολλά πεδία

Λύση: Δοκιμή και αναγνώριση tweak για μορφές υψηλής πυκνότητας.

Αξιολόγηση των επιδόσεων

  • Η αναγνώριση του τραπέζι είναι πιο CPU-intensive. παρακολούθηση των εργασιών συλλογής
  • Επιβεβαιώστε τα αποτελέσματα για κρίσιμες ροές εργασίας
  • Batch εξαγωγή για ενσωμάτωση με άλλα εργαλεία

שיטות עבודה מומלצות

  • Εξυγίανση δομημένων δεδομένων σε δείγματα πριν από την κλίμακα
  • Αποθήκευση και αρχειοθέτηση τόσο των εικόνων πηγής όσο και των εξαγόμενων αποτελεσμάτων
  • Ενημέρωση Aspose.OCR τακτικά για βελτιώσεις ακρίβειας
  • Οι ρυθμίσεις Tune για νέες διατάξεις εγγράφων

Προχωρημένα σενάρια

Σενάριο 1: Εξαγωγή σε βάσεις δεδομένων ή εργαλεία BI

// Use JSON or Excel export for integration with data pipelines

Σενάριο 2: Εξαγωγή σε πραγματικό χρόνο σε εφαρμογές Web

// Integrate extraction logic into ASP.NET or workflow API

Συμπεράσματα

Το ASPOSE.OCR Table to Text για το .NET σας επιτρέπει να αυτοματοποιήσετε τη δομημένη εξόρυξη δεδομένων από εικόνες και φόρμες, υποστηρίζοντας τα πάντα από την αυτοματοποίηση των επιχειρήσεων μέχρι τη συμμόρφωση και την ανάλυση.

Για προηγμένες λειτουργίες εξόρυξης τραπεζιού, επισκεφθείτε το Aspose.OCR για την αναφορά .NET API .

 Ελληνικά