Wie man Tabelledaten aus Bildern mit Aspose.OCR extrahiert

Wie man Tabelledaten aus Bildern mit Aspose.OCR extrahiert

Mit Aspose.OCR Tabelle zum Text für .NET können Sie die Extraction von strukturierten Tabellendaten aus Bildern automatisieren – Zeit sparen, Fehler reduzieren und unbequeme Integration mit Datenbanken, Excel oder Berichterstattungs-Tools ermöglichen.

Real-Weltproblem

Unternehmen erhalten häufig Tabellen in Rechnungen, Berichten oder Formen wie Bilder oder Scans. manuell diese Daten in Spreadsheets oder Analyseplattformen neu einführen ist ineffizient und fehlerfreundlich, vor allem für große Volumen oder komplexe Tabelle.

Überblick der Lösung

Aspose.OCR Tabelle zum Text für .NET automatisiert Tabellenerkennung und Datenerhebung aus Bildern, präzise Identifizierung der Zellstruktur und Inhalt. Dies ermöglicht es Ihnen, scannte oder fotografierte Tische in strukturierte, suchtbare und bearbeitbare Formate mit minimalem Code zu verwandeln.

Voraussetzung

Bevor Sie beginnen, benötigen Sie:

  • Visual Studio 2019 oder später
  • .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
  • Aspose.OCR für .NET von NuGet
  • Grundkenntnisse C#
PM> Install-Package Aspose.OCR

Schritt für Schritt Implementierung

Schritt 1: Installieren und konfigurieren Aspose.OCR

Fügen Sie das Aspose.OCR-Paket hinzu und enthalten Sie die erforderlichen Namenräume:

using Aspose.OCR;

Schritt 2: Vorbereiten Sie Tischbild-Einnahmen

Hinzufügen Sie eine oder mehrere Tabellenbildern zu Ihrem Eingang. Für die Batch-Extraktion verwenden Sie mehrere Dateien.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Schritt 3: Konfigurieren Sie die Tabellenerkennung Einstellungen

Aktivieren Sie das Tisch-Detektionsmodus, um sicherzustellen, dass die Struktur genau erkannt wird.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Schritt 4: Führen Sie den Tischerkennungsprozess durch

Erkennen Sie Tabellen mit den konfigurierten Einstellungen:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Schritt 5: Export und Verwendung von Tabelledaten

Speichern oder verarbeiten Sie die anerkannten Tabelldaten. Sie können in Text, Excel, JSON oder andere Formate exportieren.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Schritt 6: Fehlerbehandlung hinzufügen

Hinzufügen von Ausnahmeregelungen, um robuste Lösungen zu bauen.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Schritt 7: Optimierung für komplexe Tabellen

  • Verwenden Sie High-Resolution-Scans/Photos für die genaue Strukturdetektion
  • Test mit verschiedenen Tischlayouts (gemischte Zellen, Multi-Linie-Header, Grenzen)
  • Tune Erkennungs-Einstellungen wie nötig
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Schritt 8: Vollständiges Arbeitsbeispiel

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Verwendung von Fällen und Anwendungen

Finanzberichte und Rechnungen

Die Transaktionstabelle aus Bildern in Excel oder Datenbanksysteme automatisch extrahieren.

Forschung und Analyse

Digitalisieren Sie Tabellen aus scannierten Publikationen oder Umfragenformularen für die Datenanalyse.

Automatisierte Datenmigration

Migrieren Sie Erbe-Dokumente oder scannen Sie Papieraufzeichnungen in moderne strukturierte Formate.

Gemeinsame Herausforderungen und Lösungen

Herausforderung 1: Blurry oder komplexe Tischbilder

Lösung: Verwenden Sie klarere Bilder oder Experimente mit Vorverarbeitung, um die Strukturerkennung zu verbessern.

Herausforderung 2: Nicht-Standard Tischlayouts

Lösung: Test und Anpassung von Einstellungen für komplexe Layouts oder unbegrenzte Tabellen.

Herausforderung 3: Große Batches oder gemischte Bildtypen

Lösung: Verwenden Sie die Batch-Verarbeitung und das Katalogscan, um die Extraction aus vielen Dateien zu automatisieren.

Performance Beachtung

  • Nutzen Sie gut leuchtete, hohe Bilder
  • Batch-Prozess für Effizienz
  • OCR-Objekte nach der Verwendung

Beste Praktiken

  • Validieren Sie immer die exportierten Tabelldaten vor weiteren Verarbeitung
  • Vorverarbeitete Bilder zur optimalen Strukturdetektion
  • Sichere und Backup Original-Scans/Bilder
  • Verwenden Sie das richtige Exportformat für Ihren Workflow (CSV, XLSX, JSON)

Fortgeschrittene Szenarien

Szenario 1: Mixed-Language Table Extraction

settings.Language = Language.Chinese;

Szenario 2: Kombination von Tabelle und Text-Extraktion

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Schlussfolgerungen

Aspose.OCR Table to Text for .NET verwandelt Bildtabellen in strukturierte, bearbeitbare Daten – keine manuelle Eingabe erforderlich.

Für weitere Beispiele und technische Details besuchen Sie die Aspose.OCR für .NET API Referenz .

 Deutsch