Wie Sie Tabellen und Tabelldaten aus Bildern mit Aspose.OCR extrahieren
Die Extraktion von Tabellen aus Bildern, Formen oder gescannten Berichten ist herausfordernd – die manuelle Retyping ist langsam und fehlerfreundlich. Aspose.OCR Table to Text for .NET automatisiert die Extraction und Strukturierung der Tabelldaten aus Bilder und Fotos.
Real-Weltproblem
Finanzielle Erklärungen, Umfrageformulare und wissenschaftliche Ergebnisse werden oft in scannen Tabellen oder Bildern gefangen. manuell diese Daten wiederherstellen verliert Stunden und Risiken, die Fehler einführen.
Überblick der Lösung
Aspose.OCR für .NET kann Tabellen aus Bildern oder scannen PDFs genau erkennen, extrahieren und in maschinell lesenbare Formate konvertieren – perfekt für Excel, Berichterstattung oder Workflow-Automation.
Voraussetzung
- Visual Studio 2019 oder später
- .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
- Aspose.OCR für .NET von NuGet
- Grundkenntnisse C#
PM> Install-Package Aspose.OCR
Schritt für Schritt Implementierung
Schritt 1: Installieren und konfigurieren Aspose.OCR
using Aspose.OCR;
Schritt 2: Scannen oder Fotografieren von Bildern, die Tabellen enthalten
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Schritt 3: Konfigurieren Sie die Tabellenerkennung Einstellungen
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Schritt 4: Durchführen Sie den Tisch-Extraktionsprozess
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Schritt 5: Exporttabelldaten
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Schritt 6: Fehlerbehandlung und Validierung hinzufügen
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Schritt 7: Optimierung für komplexe, rotierte oder mehrseitige Tabellen
- Vorverarbeitung von Bildern zu deskew oder crop
- Verwenden Sie High-Resolution-Scans oder Fotos
- Für mehrseitige PDFs fügen Sie jede Seite als separate Eingabe hinzu.
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Schritt 8: Vollständiges Beispiel
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Verwendung von Fällen und Anwendungen
Finanz- und wissenschaftliche Berichterstattung
Tabellen aus Finanzberichten, Laborergebnissen oder Forschungsdokumenten für Instant-Analyse in Excel extrahieren.
Umfrage und Formverarbeitung
Digitalisieren Sie Tabellen aus scannen Formularen, Checklisten oder Zensus-Doken.
Workflow Automatisierung
Fügen Sie strukturierte Tabelldaten direkt in Ihre Geschäftsanwendungen, BI-Tools oder Datenbanken.
Gemeinsame Herausforderungen und Lösungen
Herausforderung 1: Schlechte Qualität oder komplexe Tabellen
Lösung: Verwenden Sie High-Res-Bilder und testen Sie auf Proben. Vorverarbeitung zur Verbesserung der Klarheit.
Herausforderung 2: Rotierte oder abgeschnittene Tische
Lösung: Deskew Bilder vor der Verarbeitung; verwenden Sie DetectAreasMode.TABLE.
Herausforderung 3: Mehrseiten Berichte
Lösung: Fügen Sie jede Seite als separate Eingabe für die Batchverarbeitung hinzu.
Performance Beachtung
- Batch-Prozess für Geschwindigkeit
- Verwenden Sie qualitativ hochwertige Scan/Photos
- Verfügbarkeit von OCR-Objekten nach großen Rennen
Beste Praktiken
- Validierung der Produktion vor der Integration
- Tune-Tabelle erkennen Einstellungen wie nötig
- Original- und digitalisierte Daten
- Test mit echten Proben vor der Einführung
Fortgeschrittene Szenarien
Szenario 1: Mehrsprachige Tischekstraktion
settings.Language = Language.German;
Scenario 2: Export zu JSON für Datenleitungen
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Schlussfolgerungen
ASPOSE.OCR Tabelle zum Text für .NET verwandelt Bilder und Scannen in wirksame, strukturierte Tabelldaten – bereit für die Analyse, Berichterstattung und Automatisierung.
Sehen Sie mehr Tabellenerkennungs-Code Proben in der Aspose.OCR für .NET API Referenz .