Hur man extraherar strukturerade data från tabeller och former i bilder

Hur man extraherar strukturerade data från tabeller och former i bilder

Att extrahera data från skannade tabeller eller fyllda formulär är nödvändigt för företagets automatisering, rapportering och överensstämmelse. Aspose.OCR Tabell till Text för .NET effektiviserar denna process, exakt upptäcker cell- och fältstruktur och exporterar till redigerbara format.

Realvärldsproblem

Företag får ofta fakturor, rapporter eller formulär som bilder eller skanningar. Manuell inmatning av tabelldata eller formfält är långsam, felfria och dyra i skala.

Översikt över lösningen

Med Tabell till Text för .NET kan du extrahera strukturerade data – inklusive rader, kolumner och fältvärden – direkt från bilder. Resultat kan exporteras till Excel, JSON eller integreras med databaser och automatiseringsplattformar.

förutsättningar

  • Visual Studio 2019 eller senare
  • .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
  • Aspose.OCR för .NET från NuGet
  • Grundläggande C# färdigheter
PM> Install-Package Aspose.OCR

Steg för steg genomförande

Steg 1: Installera och konfigurera Aspose.OCR

using Aspose.OCR;

Steg 2: Förbereda tabell eller formulär bilder

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Steg 3: Konfigurera identifieringsinställningar för tabeller/formulär

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Steg 4: Extrakt tabell eller form data

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Steg 5: Export strukturerad produktion

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Steg 6: Hantera misstag och validera resultat

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Steg 7: Optimera för tabell/formvariationer

  • Test på prover med olika gränser, fontar eller fältplaceringar
  • Tune preprocessing inställningar för bästa upptäckt

Steg 8: Automatisk batchutvinning

Processera alla relevanta bilder i en mapp:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Steg 9: Ett komplett exempel

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Använd fall och applikationer

Fakturering och rapportering Automation

Utvisa finansiella data för redovisning eller analys.

Undersökning och registreringsformulär

Pull strukturerade svar för CRM, ERP eller BI-system.

överensstämmelse och revision

Automatisk utvinning och validering av data från lämnade formulär eller tabeller.

Gemensamma utmaningar och lösningar

Utmaning 1: Oregulära bordsgränser eller layouter

Lösning: Använd förbehandling och provtoning för att förbättra upptäckten.

Utmaning 2: Blandat innehåll (text och tabeller)

Lösning: Kör med AUTO eller separera efter bildstyp för bästa resultat.

Utmaning 3: komplexa former med många fält

Lösning: Test och tweak erkännande för högdensitetsformer.

Prestanda överväganden

  • Tabellidentifiering är mer CPU-intensiv; övervaka batchjobb
  • Validerar utgångar för kritiska arbetsflöden
  • Batch export för integration med andra verktyg

Bästa praxis

  • Validerar strukturerade data på prover innan skalan
  • Säker och arkivera både källbilder och extraherade utgångar
  • Uppdatera Aspose.OCR regelbundet för precisionsförbättringar
  • Tune-inställningar för nya dokument layouter

Avancerade scenarier

Scenario 1: Export till databas eller BI-verktyg

// Use JSON or Excel export for integration with data pipelines

Scenario 2: Real-Time Extraction i webbapps

// Integrate extraction logic into ASP.NET or workflow API

slutsatser

Aspose.OCR Tabell till Text för .NET gör det möjligt för dig att automatisera strukturerad datautvinning från bilder och formulär, vilket stöder allt från företagets automatisering till överensstämmelse och analys.

För avancerade tabellutvinning funktioner, besök Aspose.OCR för .NET API Referens .

 Svenska