Hvordan til at udveksle strukturerede data fra tabeller og former i billeder

Hvordan til at udveksle strukturerede data fra tabeller og former i billeder

Udvinding af data fra scannede tabeller eller udfyldte formularer er afgørende for forretningsautomation, rapportering og overholdelse. Aspose.OCR Table to Text for .NET styrker denne proces, nøje opdager celle- og feltstruktur og eksporterer til redigerbare formater.

Det virkelige problem

Virksomheder modtager ofte fakturaer, rapporter eller formularer som billeder eller scanninger. Manuel indtastning af tabulære data eller formulærfelter er langsom, fejlfrit og dyrt i skala.

Oversigt over løsning

Med Table to Text for .NET kan du udveksle strukturerede data – herunder rader, kolumner og feltværdier – direkte fra billeder. Resultater kan eksporteres til Excel, JSON eller integreres med databaser og automatiseringsplatforme.

Forudsætninger

  • Visual Studio 2019 eller senere
  • .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
  • Aspose.OCR til .NET fra NuGet
  • Grundlæggende C# færdigheder
PM> Install-Package Aspose.OCR

Step-by-Step gennemførelse

Trin 1: Installation og konfiguration af Aspose.OCR

using Aspose.OCR;

Trin 2: Forbered tabeller eller formularer

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Trin 3: Konfigurer genkendelsesindstillinger for tabeller/formler

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Trin 4: Udveksle tabel eller form data

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Trin 5: Eksport struktureret udgang

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Trin 6: Håndtering af fejl og validerede resultater

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Trin 7: Optimering af tabel/form variationer

  • Test på prøver med forskellige grænser, fonts eller feltplaceringer
  • Tune præbehandling indstillinger for den bedste opdagelse

Trin 8: Automatisk batchekstraktion

Behandle alle relevante billeder i en mappe:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Næste trin: Et komplet eksempel

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Brug af tilfælde og applikationer

Fakturering og rapportering Automation

Udvælg finansielle data til regnskab eller analyse.

Undersøgelse og registreringsformularer

Pull strukturerede svar til CRM, ERP eller BI-systemer.

Overholdelse og revision

Automatisk udvinding og validering af data fra de indsendte formularer eller tabeller.

Fælles udfordringer og løsninger

Udfordring 1: Uregelmæssige bordgrænser eller layouter

Løsning: Brug forarbejdning og prøvetuning for at forbedre opdagelsen.

Udfordring 2: Blandt indhold (tekst og tabeller)

Løsning: Run med AUTO eller adskilt efter billedtype for bedste resultater.

Udfordring 3: komplekse former med mange felter

Løsning: Test og tweak genkendelse for højdensitetsformer.

Performance overvejelser

  • Tabel genkendelse er mere CPU-intensiv; overvågning batch jobs
  • Validering af udløb for kritiske arbejdsprocesser
  • Batch eksport til integration med andre værktøjer

Bedste praksis

  • Validerer strukturerede data på prøver før skalering
  • Sikre og arkivere både kildebilleder og udvinding
  • Opdaterer Aspose.OCR regelmæssigt for præcision forbedringer
  • Tune indstillinger for nye dokument layouter

Avancerede scenarier

Scenario 1: Eksport til databaser eller BI-værktøjer

// Use JSON or Excel export for integration with data pipelines

Scenario 2: Real-time ekstraktion i webapps

// Integrate extraction logic into ASP.NET or workflow API

Konklusion

Aspose.OCR Table to Text for .NET giver dig mulighed for at automatisere struktureret dataudvinding fra billeder og formularer, der understøtter alt fra forretningsautomation til overensstemmelse og analyse.

For avancerede bordekstraktionsfunktioner, besøg Aspose.OCR til .NET API Reference .

 Dansk