Kako izvući strukturirane podatke iz tablica i oblika u slikama

Kako izvući strukturirane podatke iz tablica i oblika u slikama

Izvlačenje podataka iz skeniranih tablica ili ispunjenih obrazaca ključno je za poslovnu automatizaciju, izvješćivanje i usklađenost.Aspose.OCR Tablica za tekst za .NET usmjerava ovaj proces, točno otkrivajući strukturu stanica i polja te izvozom u uredljive formate.

Real-svjetski problem

Poduzeća često dobivaju račune, izvješća ili obrasce kao slike ili skeniranje. ručni ulazak tablica podataka ili polja obrasca je sporo, pogrešno, i skupo na razini.

Pregled rješenja

S tablicom na tekst za .NET možete izravno izvući strukturirane podatke – uključujući redove, stolpce i vrijednosti polja – iz slika.

Preduzeća

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Osnovne C# vještine
PM> Install-Package Aspose.OCR

Korak po korak provedba

Korak 1: Instaliranje i konfiguracija Aspose.OCR

using Aspose.OCR;

Korak 2: Pripremite tablicu ili oblik slike

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Korak 3: Konfigurirajte postavke prepoznavanja za tablice/formule

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Korak 4: Izvadite podatke o tablici ili obrazcu

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Korak 5: Izvoz strukturiranog proizvoda

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Korak 6: Rješavanje pogrešaka i potvrđivanje rezultata

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Korak 7: Optimizacija za varijante tablice / oblike

  • Test na uzorcima s različitim granicama, fontovima ili poljima
  • Tune Preprocesing postavke za najbolju detekciju

Korak 8: Automatizirana ekstrakcija batha

Procesiranje svih relevantnih slika u folderu:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Četvrti korak: potpuni primjer

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Korištenje slučajeva i aplikacija

Automatizacija računa i izvješća

Izvlačenje financijskih podataka za računovodstvo ili analizu.

Istraživanje i registracijski obrasci

Pull strukturirane odgovore za CRM, ERP ili BI sustave.

Usklađenost i revizija

Automatsko izvlačenje i validacija podataka iz podnesenih obrasca ili tablica.

Zajednički izazovi i rješenja

Izazov 1: Neregularne granice stolova ili raspored

Rješenje: Koristite preprocesiranje i toniranje uzoraka kako biste poboljšali detekciju.

Izazov 2: Mješoviti sadržaj (tekst i tablice)

Rješenje: Radite s AUTO ili odvojeno po vrsti slike za najbolje rezultate.

Izazov 3: Kompleksne oblike s mnogim poljima

Rješenje: Test i premaz prepoznavanja za visoke gustoće oblika.

Razmatranje učinkovitosti

  • Tabelsko prepoznavanje je CPU-intensivnije; monitor batch radovi
  • Validirati izlaze za kritične radne tokove
  • Batch izvoz za integraciju s drugim alatima

Najbolje prakse

  • Validirati strukturirane podatke na uzorcima prije skaliranja
  • Sažeti i arhivirati i izvorne slike i izvedenih izvora
  • Redovito ažurirati Aspose.OCR za poboljšanje točnosti
  • Tune postavke za nove raspodjele dokumenata

Napredni scenariji

Scenarij 1: Izvoz na bazu podataka ili BI alate

// Use JSON or Excel export for integration with data pipelines

Scenarij 2: Ekstrakcija u stvarnom vremenu u web aplikacijama

// Integrate extraction logic into ASP.NET or workflow API

zaključak

Aspose.OCR Tablica za tekst za .NET omogućuje automatizaciju strukturiranog izvlačenja podataka iz slika i obrasca, podržavajući sve od poslovne automatizacije do usklađenosti i analize.

Za napredne funkcije ekstrakcije stolova, posjetite Aspose.OCR za .NET API reference .

 Hrvatski