Wie Sie Tabellen und Tabelldaten aus Bildern mit Aspose.OCR extrahieren

Wie Sie Tabellen und Tabelldaten aus Bildern mit Aspose.OCR extrahieren

Die Extraktion von Tabellen aus Bildern, Formen oder gescannten Berichten ist herausfordernd – die manuelle Retyping ist langsam und fehlerfreundlich. Aspose.OCR Table to Text for .NET automatisiert die Extraction und Strukturierung der Tabelldaten aus Bilder und Fotos.

Real-Weltproblem

Finanzielle Erklärungen, Umfrageformulare und wissenschaftliche Ergebnisse werden oft in scannen Tabellen oder Bildern gefangen. manuell diese Daten wiederherstellen verliert Stunden und Risiken, die Fehler einführen.

Überblick der Lösung

Aspose.OCR für .NET kann Tabellen aus Bildern oder scannen PDFs genau erkennen, extrahieren und in maschinell lesenbare Formate konvertieren – perfekt für Excel, Berichterstattung oder Workflow-Automation.

Voraussetzung

  • Visual Studio 2019 oder später
  • .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
  • Aspose.OCR für .NET von NuGet
  • Grundkenntnisse C#
PM> Install-Package Aspose.OCR

Schritt für Schritt Implementierung

Schritt 1: Installieren und konfigurieren Aspose.OCR

using Aspose.OCR;

Schritt 2: Scannen oder Fotografieren von Bildern, die Tabellen enthalten

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Schritt 3: Konfigurieren Sie die Tabellenerkennung Einstellungen

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Schritt 4: Durchführen Sie den Tisch-Extraktionsprozess

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Schritt 5: Exporttabelldaten

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Schritt 6: Fehlerbehandlung und Validierung hinzufügen

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Schritt 7: Optimierung für komplexe, rotierte oder mehrseitige Tabellen

  • Vorverarbeitung von Bildern zu deskew oder crop
  • Verwenden Sie High-Resolution-Scans oder Fotos
  • Für mehrseitige PDFs fügen Sie jede Seite als separate Eingabe hinzu.
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Schritt 8: Vollständiges Beispiel

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Verwendung von Fällen und Anwendungen

Finanz- und wissenschaftliche Berichterstattung

Tabellen aus Finanzberichten, Laborergebnissen oder Forschungsdokumenten für Instant-Analyse in Excel extrahieren.

Umfrage und Formverarbeitung

Digitalisieren Sie Tabellen aus scannen Formularen, Checklisten oder Zensus-Doken.

Workflow Automatisierung

Fügen Sie strukturierte Tabelldaten direkt in Ihre Geschäftsanwendungen, BI-Tools oder Datenbanken.

Gemeinsame Herausforderungen und Lösungen

Herausforderung 1: Schlechte Qualität oder komplexe Tabellen

Lösung: Verwenden Sie High-Res-Bilder und testen Sie auf Proben. Vorverarbeitung zur Verbesserung der Klarheit.

Herausforderung 2: Rotierte oder abgeschnittene Tische

Lösung: Deskew Bilder vor der Verarbeitung; verwenden Sie DetectAreasMode.TABLE.

Herausforderung 3: Mehrseiten Berichte

Lösung: Fügen Sie jede Seite als separate Eingabe für die Batchverarbeitung hinzu.

Performance Beachtung

  • Batch-Prozess für Geschwindigkeit
  • Verwenden Sie qualitativ hochwertige Scan/Photos
  • Verfügbarkeit von OCR-Objekten nach großen Rennen

Beste Praktiken

  • Validierung der Produktion vor der Integration
  • Tune-Tabelle erkennen Einstellungen wie nötig
  • Original- und digitalisierte Daten
  • Test mit echten Proben vor der Einführung

Fortgeschrittene Szenarien

Szenario 1: Mehrsprachige Tischekstraktion

settings.Language = Language.German;

Scenario 2: Export zu JSON für Datenleitungen

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Schlussfolgerungen

ASPOSE.OCR Tabelle zum Text für .NET verwandelt Bilder und Scannen in wirksame, strukturierte Tabelldaten – bereit für die Analyse, Berichterstattung und Automatisierung.

Sehen Sie mehr Tabellenerkennungs-Code Proben in der Aspose.OCR für .NET API Referenz .

 Deutsch