Jak extrahovat strukturované údaje z tabulek a tvarů ve snímcích

Jak extrahovat strukturované údaje z tabulek a tvarů ve snímcích

Odstranění dat z skenovaných tabulek nebo vyplněných formulářů je nezbytné pro obchodní automatizaci, vykazování a dodržování požadavků. ASPOSE.OCR Tabulka do textu pro .NET usnadňuje tento proces, přesně detekuje strukturu buněk a pole a exportuje do editovatelných formátů.

Reálný světový problém

Podniky často obdrží faktury, zprávy nebo formuláře jako obrázky nebo skenování. manuální vstup tabulkových dat nebo formátových polí je pomalý, chybový a drahý v měřítku.

Řešení přehled

S tabulkou do textu pro .NET můžete strukturované údaje – včetně řádků, sloupců a hodnot pole – extrahovat přímo z obrázků. Výsledky lze exportovat do Excelu, JSONu nebo integrovat s databázemi a automatizačními platformami.

Předpoklady

  • Visual Studio 2019 nebo novější
  • .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
  • Aspose.OCR pro .NET z NuGet
  • Základní C# dovednosti
PM> Install-Package Aspose.OCR

krok za krokem implementace

Krok 1: Instalace a nastavení ASPOSE.OCR

using Aspose.OCR;

Krok 2: Připravte tabulku nebo tvar obrázků

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Krok 3: Nastavení rozpoznání pro tabulky / formuláře

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Krok 4: Využijte tabulku nebo formuláře

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Vývoz strukturovaného vývozu

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Krok 6: Řešení chyb a ověřování výsledků

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizace variant tabulky/formy

  • Testování na vzorcích s různými hranicemi, písmeny nebo pole
  • Tune předprocesní nastavení pro nejlepší detekci

Krok 8: Automatická extrakce batchů

Zpracujte všechny relevantní obrázky v složce:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Krok 9: Kompletní příklad

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použití případů a aplikací

Automatizace fakturace a reportování

Využijte finanční údaje pro účetnictví nebo analýzu.

Formulář průzkumu a registrace

Pull strukturované odpovědi pro systémy CRM, ERP nebo BI.

Dodržování a audit

Automatická extrakce a validace údajů z předložených formulářů nebo tabulek.

Společné výzvy a řešení

Výzva 1: Neregulární stolní hranice nebo rozložení

Rozhodnutí: Pro zlepšení detekce použijte předběžné zpracování a vzorkování.

Výzva 2: Smíšený obsah (text a tabulky)

Rozhodnutí: Spustit AUTO nebo oddělovat podle typu obrazu pro nejlepší výsledky.

Výzva 3: Komplexní formy s mnoha pole

Rozhodnutí: Testování a rozpoznávání tweak pro formy s vysokou hustotou.

Úvahy o výkonu

  • Stůl rozpoznávání je více CPU-intenzivní; monitor batch práce
  • Validace výstupů pro kritické pracovní toky
  • Batch export pro integraci s jinými nástroji

Nejlepší postupy

  • Validovat strukturované údaje na vzorcích před skalováním
  • Zabezpečte a archivujte jak zdrojové obrázky, tak extrahované výstupy
  • Aktualizujte ASPOSE.OCR pravidelně pro zlepšení přesnosti
  • Tune nastavení pro nové rozložení dokumentů

Pokročilé scénáře

Scénář 1: Export na databázi nebo nástroje BI

// Use JSON or Excel export for integration with data pipelines

Scénář 2: Real-time extrakce v webových aplikacích

// Integrate extraction logic into ASP.NET or workflow API

závěr

ASPOSE.OCR Tabulka do textu pro .NET vám umožňuje automatizovat strukturované data extrahování z obrázků a formulářů, podporovat vše od obchodní automatizaci až po shodu a analýzu.

Pro pokročilé funkce stolní extrakce, navštivte Aspose.OCR pro .NET API Reference .

 Čeština