Kako izvući strukturirane podatke iz tablica i oblika u slikama
Izvlačenje podataka iz skeniranih tablica ili ispunjenih obrazaca ključno je za poslovnu automatizaciju, izvješćivanje i usklađenost.Aspose.OCR Tablica za tekst za .NET usmjerava ovaj proces, točno otkrivajući strukturu stanica i polja te izvozom u uredljive formate.
Real-svjetski problem
Poduzeća često dobivaju račune, izvješća ili obrasce kao slike ili skeniranje. ručni ulazak tablica podataka ili polja obrasca je sporo, pogrešno, i skupo na razini.
Pregled rješenja
S tablicom na tekst za .NET možete izravno izvući strukturirane podatke – uključujući redove, stolpce i vrijednosti polja – iz slika.
Preduzeća
- Visual Studio 2019 ili kasnije
- .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
- Aspose.OCR za .NET od NuGet
- Osnovne C# vještine
PM> Install-Package Aspose.OCR
Korak po korak provedba
Korak 1: Instaliranje i konfiguracija Aspose.OCR
using Aspose.OCR;
Korak 2: Pripremite tablicu ili oblik slike
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Korak 3: Konfigurirajte postavke prepoznavanja za tablice/formule
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Korak 4: Izvadite podatke o tablici ili obrazcu
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Korak 5: Izvoz strukturiranog proizvoda
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Korak 6: Rješavanje pogrešaka i potvrđivanje rezultata
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Korak 7: Optimizacija za varijante tablice / oblike
- Test na uzorcima s različitim granicama, fontovima ili poljima
- Tune Preprocesing postavke za najbolju detekciju
Korak 8: Automatizirana ekstrakcija batha
Procesiranje svih relevantnih slika u folderu:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Četvrti korak: potpuni primjer
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Korištenje slučajeva i aplikacija
Automatizacija računa i izvješća
Izvlačenje financijskih podataka za računovodstvo ili analizu.
Istraživanje i registracijski obrasci
Pull strukturirane odgovore za CRM, ERP ili BI sustave.
Usklađenost i revizija
Automatsko izvlačenje i validacija podataka iz podnesenih obrasca ili tablica.
Zajednički izazovi i rješenja
Izazov 1: Neregularne granice stolova ili raspored
Rješenje: Koristite preprocesiranje i toniranje uzoraka kako biste poboljšali detekciju.
Izazov 2: Mješoviti sadržaj (tekst i tablice)
Rješenje: Radite s AUTO ili odvojeno po vrsti slike za najbolje rezultate.
Izazov 3: Kompleksne oblike s mnogim poljima
Rješenje: Test i premaz prepoznavanja za visoke gustoće oblika.
Razmatranje učinkovitosti
- Tabelsko prepoznavanje je CPU-intensivnije; monitor batch radovi
- Validirati izlaze za kritične radne tokove
- Batch izvoz za integraciju s drugim alatima
Najbolje prakse
- Validirati strukturirane podatke na uzorcima prije skaliranja
- Sažeti i arhivirati i izvorne slike i izvedenih izvora
- Redovito ažurirati Aspose.OCR za poboljšanje točnosti
- Tune postavke za nove raspodjele dokumenata
Napredni scenariji
Scenarij 1: Izvoz na bazu podataka ili BI alate
// Use JSON or Excel export for integration with data pipelines
Scenarij 2: Ekstrakcija u stvarnom vremenu u web aplikacijama
// Integrate extraction logic into ASP.NET or workflow API
zaključak
Aspose.OCR Tablica za tekst za .NET omogućuje automatizaciju strukturiranog izvlačenja podataka iz slika i obrasca, podržavajući sve od poslovne automatizacije do usklađenosti i analize.
Za napredne funkcije ekstrakcije stolova, posjetite Aspose.OCR za .NET API reference .