Ako extrahovať štruktúrované údaje z tabuliek a tvarov v obrázkoch

Ako extrahovať štruktúrované údaje z tabuliek a tvarov v obrázkoch

Odstránenie údajov z skenovaných tabuliek alebo vyplnených formulárov je nevyhnutné pre obchodnú automatizáciu, správu a dodržiavanie požiadaviek. ASPOSE.OCR Tabuľka na text pre .NET zjednodušuje tento proces, presne detekuje bunkovú a poľnú štruktúru a vyváža sa do upraviteľných formátov.

Reálny svetový problém

Podniky často prijímajú faktúry, správy alebo formuláre ako obrázky alebo skenovanie. Manuálny vstup tabuľkových údajov alebo poľa formulára je pomalý, chybový a drahý v rozsahu.

Prehľad riešenia

Pomocou tabuľky na text pre .NET môžete štruktúrované údaje – vrátane riadkov, stĺpcov a polných hodnôt – extrahovať priamo z obrázkov. Výsledky môžu byť exportované do programu Excel, JSON alebo integrované s databázami a automatizačnými platformami.

Predpoklady

  • Visual Studio 2019 alebo neskôr
  • .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
  • Aspose.OCR pre .NET od NuGet
  • Základné C# zručnosti
PM> Install-Package Aspose.OCR

krok za krokom implementácia

Krok 1: Inštalácia a konfigurácia Aspose.OCR

using Aspose.OCR;

Krok 2: Pripravte tabuľku alebo tvar obrázkov

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Krok 3: Nastavenie rozpoznávacích nastavení pre tabuľky / formuláre

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Krok 4: Odstráňte tabuľku alebo formulár údajov

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Štruktúrovaný vývoz

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Krok 6: Riešenie chýb a potvrdenie výsledkov

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizácia pre variácie tabuľky/formy

  • Testovanie vzoriek s rôznymi hranicami, písmenami alebo polovými umiestnením
  • Tune predbežné nastavenia pre najlepšie detekcie

Krok 8: Automatická extrakcia batchov

Spracovať všetky relevantné obrázky v priečinku:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Krok 9: Kompletný príklad

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použitie prípadov a aplikácií

Automatizácia faktúry a správy

Výpis finančných údajov na účtovníctvo alebo analýzu.

Formulár prieskumu a registrácie

Pull štruktúrované odpovede pre systémy CRM, ERP alebo BI.

Dodržiavanie a audit

Automatická extrakcia a validácia údajov z predložených formulárov alebo tabuliek.

Spoločné výzvy a riešenia

Výzva 1: Neregulárne tabuľkové hranice alebo rozloženia

Riešenie: Použite predbežné spracovanie a vzorové tunovanie na zlepšenie detekcie.

Výzva 2: Zmiešaný obsah (Text a tabuľky)

Riešenie: Spustiť s AUTO alebo samostatne podľa typu obrazu pre najlepšie výsledky.

Výzva 3: Komplexné formy s mnohými pole

Riešenie: Testovanie a rozpoznávanie tweak pre formy s vysokou hustotou.

Preskúmanie výkonnosti

  • Tabuľkové rozpoznávanie je CPU intenzívnejšie; monitorovanie batch práce
  • Validácia výstupov pre kritické pracovné toky
  • Batch export pre integráciu s inými nástrojmi

Najlepšie postupy

  • Validácia štruktúrovaných údajov na vzorkách pred skalovaním
  • Zabezpečte a archivujte zdrojové obrázky a extrahované výstupy
  • Aktualizovať Aspose.OCR pravidelne pre zlepšenie presnosti
  • Tune nastavenia pre nové rozloženia dokumentov

Pokročilé scenáre

Scenár 1: Export do databázy alebo BI nástrojov

// Use JSON or Excel export for integration with data pipelines

Scenár 2: V reálnom čase extrakcia v webových aplikáciách

// Integrate extraction logic into ASP.NET or workflow API

Záver

ASPOSE.OCR Tabuľka na text pre .NET vám umožňuje automatizovať štruktúrovanú extrakciu údajov z obrázkov a formulárov a podporovať všetko od podnikovej automatiky až po dodržiavanie a analýzu.

Pre pokročilé funkcie výťažkovej tabuľky navštívte Aspose.OCR pre .NET API referencie .

 Slovenčina