Wie man strukturierte Daten aus Tabellen und Formen in Bildern extrahiert

Wie man strukturierte Daten aus Tabellen und Formen in Bildern extrahiert

Die Extraktion von Daten aus scannen Tabellen oder gefüllten Formularen ist unerlässlich für die Business-Automation, Berichterstattung und Einhaltung. Aspose.OCR Table to Text for .NET vereinfacht diesen Prozess, genau die Zell- und Feldstruktur erkennt und in bearbeitbare Formate exportiert.

Real-Weltproblem

Unternehmen erhalten oft Rechnungen, Berichte oder Formulare wie Bilder oder Scans. Die manuelle Eingabe von Tabelldaten oder Formenfeldern ist langsam, Fehlerfreundlich und teuer in der Skala.

Überblick der Lösung

Mit Table to Text für .NET können Sie strukturierte Daten – einschließlich Zeilen, Spalten und Feldwerte – direkt aus Bildern extrahieren. Ergebnisse können in Excel, JSON oder mit Datenbanken und Automatisierungsplattformen integriert werden.

Voraussetzung

  • Visual Studio 2019 oder später
  • .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
  • Aspose.OCR für .NET von NuGet
  • Grundlegende C# Fähigkeiten
PM> Install-Package Aspose.OCR

Schritt für Schritt Implementierung

Schritt 1: Installieren und konfigurieren Aspose.OCR

using Aspose.OCR;

Schritt 2: Vorbereiten Sie Tisch oder Form Bilder

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Schritt 3: Konfigurieren Sie die Anerkennungseinstellungen für Tabellen/Formulare

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Schritt 4: Tabelle oder Formdaten extrahieren

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Schritt 5: Strukturierte Ausfuhren

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Schritt 6: Fehlerbehandeln und Validate Results

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Schritt 7: Optimierung für Tabelle/Form Variationen

  • Test auf Proben mit verschiedenen Grenzen, Fonts oder Feldplätzen
  • Tune Preprocessing-Einstellungen für die beste Entdeckung

Schritt 8: Automatische Batch-Extraktion

Verarbeiten Sie alle relevanten Bilder in einem Ordner:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Schritt 9: Vollständiges Beispiel

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Verwendung von Fällen und Anwendungen

Rechnung und Berichterstattung Automation

Finanzielle Daten für Buchhaltung oder Analyse zu extrahieren.

Umfrage und Registrierungsformulare

Pull strukturierte Reaktionen für CRM, ERP oder BI-Systeme.

Übereinstimmung und Audit

Automatische Extraktion und Validierung von Daten aus vorgelegten Formen oder Tabellen.

Gemeinsame Herausforderungen und Lösungen

Herausforderung 1: Unregelmäßige Tischgrenzen oder Layouts

Lösung: Verwenden Sie Vorverarbeitung und Probe-Tuning, um die Erkennung zu verbessern.

Herausforderung 2: Gemischte Inhalte (Text und Tabellen)

Lösung: Lauf mit AUTO oder getrennt nach Bildtyp für die besten Ergebnisse.

Herausforderung 3: Komplexe Formen mit vielen Feldern

Lösung: Test- und Tweak-Erkennung für Hochdensitätsformen.

Performance Beachtung

  • Tischerkennung ist CPU-intensiver; Monitor-Batch-Arbeits
  • Validierung von Ausgaben für kritische Arbeitsflüsse
  • Batch-Export für die Integration mit anderen Tools

Beste Praktiken

  • Validieren Sie strukturierte Daten auf Proben vor der Skalierung
  • Sichere und archivieren Sie sowohl Quellbilder als auch extrahierte Output
  • Aspose.OCR regelmäßig aktualisieren, um die Genauigkeit zu verbessern
  • Tune-Einstellungen für neue Dokumentlayouts

Fortgeschrittene Szenarien

Szenario 1: Export zu Datenbanken oder BI-Tools

// Use JSON or Excel export for integration with data pipelines

Scenario 2: Real-Time Extraction in Web Apps

// Integrate extraction logic into ASP.NET or workflow API

Schlussfolgerungen

ASPOSE.OCR Tabelle zum Text für .NET ermöglicht es Ihnen, strukturierte Datenerhebungen aus Bildern und Formen zu automatisieren und alles von Business-Automation bis hin zu Compliance und Analyse zu unterstützen.

Für fortschrittliche Tisch-Extraktionsfunktionen besuchen Sie die Aspose.OCR für .NET API Referenz .

 Deutsch