Hur man extraherar tabeller och tabelldata från bilder med Aspose.OCR

Hur man extraherar tabeller och tabelldata från bilder med Aspose.OCR

Att extrahera tabeller från bilder, formulär eller skannade rapporter är utmanande – manuell retyping är långsam och felfri. Aspose.OCR Tabell till Text för .NET automatiserar extraktionen och struktureringen av tabelldata från foton och bilder.

Realvärldsproblem

Finansiella rapporter, undersökningsformulär och vetenskapliga resultat är ofta fångade i skannade tabeller eller bilder. Manuell återställning av dessa data slösar timmar och risker med att införa fel.

Översikt över lösningen

Aspose.OCR för .NET kan exakt upptäcka, extrahera och konvertera tabeller från bilder eller skannade PDF-filer till maskinläsbara format – perfekt för Excel, rapportering eller arbetsflödesautomation.

förutsättningar

  • Visual Studio 2019 eller senare
  • .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
  • Aspose.OCR för .NET från NuGet
  • Grundläggande C# kunskap
PM> Install-Package Aspose.OCR

Steg för steg genomförande

Steg 1: Installera och konfigurera Aspose.OCR

using Aspose.OCR;

Steg 2: Skanna eller fotografera bilder som innehåller tabeller

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Steg 3: Konfigurera tabell Recognition Settings

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Steg 4: Kör bordsutvinningsprocessen

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Steg 5: Export tabelldata

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Steg 6: Lägg till felhantering och validering

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Steg 7: Optimera för komplexa, roterade eller flersidiga tabeller

  • Förbehandling av bilder till deskew eller crop
  • Använd högupplösningsskannor eller foton
  • För flersidiga PDF-filer lägger du till varje sida som en separat inmatning
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Steg 8: Ett fullständigt exempel

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Använd fall och applikationer

Finansiell och vetenskaplig rapportering

Ta ut tabeller från finansiella rapporter, laboratorieresultat eller forskningsartiklar för omedelbar analys i Excel.

Undersökning och form bearbetning

Digitalisera tabeller från skannade formulär, checklistor eller censurregistreringar.

Arbetsflöde Automation

Ge strukturerade tabelldata direkt till dina affärsapplikationer, BI-verktyg eller databaser.

Gemensamma utmaningar och lösningar

Utmaning 1: dålig kvalitet eller komplexa tabeller

Lösning: Använd höga bilder och test på provsätt.

Utmaning 2: Roterade eller svängda tabeller

Lösning: Skapa bilder före bearbetning; Använd DetectAreasMode.TABLE.

Utmaning 3: Multi-Page Reports

Lösning: Lägg till varje sida som en separat inmatning för batchbehandling.

Prestanda överväganden

  • Batch process för hastighet
  • Använd högkvalitativa skanningar/bilder
  • Tillhandahållande av OCR-objekt efter stora löpningar

Bästa praxis

  • Validerar produktionen före integration
  • Tune Table Recognition inställningar som behövs
  • Backup original och digitaliserade data
  • Test med verkliga prover innan implementering

Avancerade scenarier

Scenario 1: Flerspråkig tabellutvinning

settings.Language = Language.German;

Scenario 2: Export till JSON för datarör

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

slutsatser

Aspose.OCR Tabell till Text för .NET omvandlar bilder och skanningar till aktiverbara, strukturerade tabelldata – redo för analys, rapportering och automatisering.

Se fler tabellidentifieringskoder prover i Aspose.OCR för .NET API Referens .

 Svenska