Hur man extraherar tabeller och tabelldata från bilder med Aspose.OCR
Att extrahera tabeller från bilder, formulär eller skannade rapporter är utmanande – manuell retyping är långsam och felfri. Aspose.OCR Tabell till Text för .NET automatiserar extraktionen och struktureringen av tabelldata från foton och bilder.
Realvärldsproblem
Finansiella rapporter, undersökningsformulär och vetenskapliga resultat är ofta fångade i skannade tabeller eller bilder. Manuell återställning av dessa data slösar timmar och risker med att införa fel.
Översikt över lösningen
Aspose.OCR för .NET kan exakt upptäcka, extrahera och konvertera tabeller från bilder eller skannade PDF-filer till maskinläsbara format – perfekt för Excel, rapportering eller arbetsflödesautomation.
förutsättningar
- Visual Studio 2019 eller senare
- .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
- Aspose.OCR för .NET från NuGet
- Grundläggande C# kunskap
PM> Install-Package Aspose.OCR
Steg för steg genomförande
Steg 1: Installera och konfigurera Aspose.OCR
using Aspose.OCR;
Steg 2: Skanna eller fotografera bilder som innehåller tabeller
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Steg 3: Konfigurera tabell Recognition Settings
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Steg 4: Kör bordsutvinningsprocessen
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Steg 5: Export tabelldata
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Steg 6: Lägg till felhantering och validering
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Steg 7: Optimera för komplexa, roterade eller flersidiga tabeller
- Förbehandling av bilder till deskew eller crop
- Använd högupplösningsskannor eller foton
- För flersidiga PDF-filer lägger du till varje sida som en separat inmatning
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Steg 8: Ett fullständigt exempel
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Använd fall och applikationer
Finansiell och vetenskaplig rapportering
Ta ut tabeller från finansiella rapporter, laboratorieresultat eller forskningsartiklar för omedelbar analys i Excel.
Undersökning och form bearbetning
Digitalisera tabeller från skannade formulär, checklistor eller censurregistreringar.
Arbetsflöde Automation
Ge strukturerade tabelldata direkt till dina affärsapplikationer, BI-verktyg eller databaser.
Gemensamma utmaningar och lösningar
Utmaning 1: dålig kvalitet eller komplexa tabeller
Lösning: Använd höga bilder och test på provsätt.
Utmaning 2: Roterade eller svängda tabeller
Lösning: Skapa bilder före bearbetning; Använd DetectAreasMode.TABLE.
Utmaning 3: Multi-Page Reports
Lösning: Lägg till varje sida som en separat inmatning för batchbehandling.
Prestanda överväganden
- Batch process för hastighet
- Använd högkvalitativa skanningar/bilder
- Tillhandahållande av OCR-objekt efter stora löpningar
Bästa praxis
- Validerar produktionen före integration
- Tune Table Recognition inställningar som behövs
- Backup original och digitaliserade data
- Test med verkliga prover innan implementering
Avancerade scenarier
Scenario 1: Flerspråkig tabellutvinning
settings.Language = Language.German;
Scenario 2: Export till JSON för datarör
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
slutsatser
Aspose.OCR Tabell till Text för .NET omvandlar bilder och skanningar till aktiverbara, strukturerade tabelldata – redo för analys, rapportering och automatisering.
Se fler tabellidentifieringskoder prover i Aspose.OCR för .NET API Referens .