Hur man extraherar strukturerade data från tabeller och former i bilder
Att extrahera data från skannade tabeller eller fyllda formulär är nödvändigt för företagets automatisering, rapportering och överensstämmelse. Aspose.OCR Tabell till Text för .NET effektiviserar denna process, exakt upptäcker cell- och fältstruktur och exporterar till redigerbara format.
Realvärldsproblem
Företag får ofta fakturor, rapporter eller formulär som bilder eller skanningar. Manuell inmatning av tabelldata eller formfält är långsam, felfria och dyra i skala.
Översikt över lösningen
Med Tabell till Text för .NET kan du extrahera strukturerade data – inklusive rader, kolumner och fältvärden – direkt från bilder. Resultat kan exporteras till Excel, JSON eller integreras med databaser och automatiseringsplattformar.
förutsättningar
- Visual Studio 2019 eller senare
- .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
- Aspose.OCR för .NET från NuGet
- Grundläggande C# färdigheter
PM> Install-Package Aspose.OCR
Steg för steg genomförande
Steg 1: Installera och konfigurera Aspose.OCR
using Aspose.OCR;
Steg 2: Förbereda tabell eller formulär bilder
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Steg 3: Konfigurera identifieringsinställningar för tabeller/formulär
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Steg 4: Extrakt tabell eller form data
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Steg 5: Export strukturerad produktion
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Steg 6: Hantera misstag och validera resultat
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Steg 7: Optimera för tabell/formvariationer
- Test på prover med olika gränser, fontar eller fältplaceringar
- Tune preprocessing inställningar för bästa upptäckt
Steg 8: Automatisk batchutvinning
Processera alla relevanta bilder i en mapp:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Steg 9: Ett komplett exempel
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Använd fall och applikationer
Fakturering och rapportering Automation
Utvisa finansiella data för redovisning eller analys.
Undersökning och registreringsformulär
Pull strukturerade svar för CRM, ERP eller BI-system.
överensstämmelse och revision
Automatisk utvinning och validering av data från lämnade formulär eller tabeller.
Gemensamma utmaningar och lösningar
Utmaning 1: Oregulära bordsgränser eller layouter
Lösning: Använd förbehandling och provtoning för att förbättra upptäckten.
Utmaning 2: Blandat innehåll (text och tabeller)
Lösning: Kör med AUTO eller separera efter bildstyp för bästa resultat.
Utmaning 3: komplexa former med många fält
Lösning: Test och tweak erkännande för högdensitetsformer.
Prestanda överväganden
- Tabellidentifiering är mer CPU-intensiv; övervaka batchjobb
- Validerar utgångar för kritiska arbetsflöden
- Batch export för integration med andra verktyg
Bästa praxis
- Validerar strukturerade data på prover innan skalan
- Säker och arkivera både källbilder och extraherade utgångar
- Uppdatera Aspose.OCR regelbundet för precisionsförbättringar
- Tune-inställningar för nya dokument layouter
Avancerade scenarier
Scenario 1: Export till databas eller BI-verktyg
// Use JSON or Excel export for integration with data pipelines
Scenario 2: Real-Time Extraction i webbapps
// Integrate extraction logic into ASP.NET or workflow API
slutsatser
Aspose.OCR Tabell till Text för .NET gör det möjligt för dig att automatisera strukturerad datautvinning från bilder och formulär, vilket stöder allt från företagets automatisering till överensstämmelse och analys.
För avancerade tabellutvinning funktioner, besök Aspose.OCR för .NET API Referens .