Kako izvući podatke o tablici iz slika s Aspose.OCR
Uz Aspose.OCR Tablica za tekst za .NET, možete automatizirati ekstrakciju strukturiranih tablica podataka iz slika – štedjeti vrijeme, smanjiti pogreške, i omogućiti bespomoćnu integraciju s bazama podataka, Excel, ili izvješćivanje alata.
Real-svjetski problem
Poduzeća često dobivaju tablice u računima, izvješćima ili obrazcima kao što su slike ili skeniranje. ručno ponovna ulaganja tih podataka u brošure ili analitičke platforme je neučinkovita i uzrokovana pogreškom, osobito za velike količine ili složenih tablica.
Pregled rješenja
ASPOSE.OCR Tablica za tekst za .NET automatizira prepoznavanje tablica i izvlačenje podataka iz slika, točno identificirajući strukturu stanice i sadržaj. To vam omogućuje da pretvorite skenirane ili snimljene tablice u strukturirane, pretražive i uredljive formate s minimalnim kodom.
Preduzeća
Prije nego što počnete, trebate:
- Visual Studio 2019 ili kasnije
- .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
- Aspose.OCR za .NET od NuGet
- Osnovno znanje C#
PM> Install-Package Aspose.OCR
Korak po korak provedba
Korak 1: Instaliranje i konfiguracija Aspose.OCR
Dodajte paket Aspose.OCR i uključite potrebne nazivne prostore:
using Aspose.OCR;
Korak 2: Pripremite stolne slike
Dodajte jednu ili više tabličnih slika u svoj ulaz. za ekstrakciju paketa, koristite više datoteka.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Korak 3: Konfigurirajte postavke za prepoznavanje tablice
Omogućite način otkrivanja stola kako bi se osiguralo da je struktura točno prepoznata.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Korak 4: Provedite proces prepoznavanja stolova
Prepoznajte tablice s konfiguriranim postavkama:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Korak 5: Izvoz i korištenje podataka o tablici
Shrani ili obrađuje prepoznate podatke tablice. možete izvoziti u tekst, Excel, JSON ili druge formate.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Korak 6: Dodajte rješavanje pogrešaka
Dodajte iznimku za rukovanje kako biste izgradili čvrste rješenja.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Korak 7: Optimizacija za složene tablice
- Koristite skeniranje/fotografije visoke rezolucije za točnu detekciju strukture
- Test s različitim rasporedima stolova (mješane stanice, višestruke glave, granice)
- Tune nastavak prepoznavanja prema potrebi
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Korak 8: Potpuni radni primjer
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Korištenje slučajeva i aplikacija
Financijski izvještaji i računi
Automatski izvlači transakcijske tablice iz slika u Excel ili bazne sustave.
Istraživanje i analiza
Digitalizirajte tablice iz skeniranih publikacija ili anketnih obrazaca za analizu podataka.
Automatizirana migracija podataka
Migracija nasljednih dokumenata ili skeniranih papirnih zapisa u modernim strukturiranim formatima.
Zajednički izazovi i rješenja
Izazov 1: Blurry ili kompleksne stolne slike
Rješenje: Koristite jasnije slike ili eksperiment s preprocesiranjem kako biste poboljšali prepoznavanje strukture.
Izazov 2: Ne-standardni raspored stolova
Rješenje: Testiranje i prilagodba postavki za složene rasporedove ili bezgranične tablice.
Izazov 3: Veličanstveni ili miješani tipovi slike
Rješenje: Koristite procesiranje paketa i skeniranje direktora kako biste automatizirali ekstrakciju iz mnogih datoteka.
Razmatranje učinkovitosti
- Koristite dobro osvijetljene, visoke slike
- Batch proces za učinkovitost
- Uklanjanje OCR predmeta nakon korištenja
Najbolje prakse
- Uvijek validirati podatke izvođene tablice prije daljnje obrade
- Preprocesne slike za optimalnu detekciju strukture
- Zaštita i kopiranje originalnih skeniranja / slika
- Koristite pravu formatu za izvoz za svoj radni protok (CSV, XLSX, JSON)
Napredni scenariji
Scenarij 1: Ekstrakcija mješovitih jezika
settings.Language = Language.Chinese;
Scenarij 2: Kombinacija tablice i ekstrakcije teksta
settings.DetectAreasMode = DetectAreasMode.COMBINE;
zaključak
ASPOSE.OCR Tablica za tekst za .NET pretvara tablice slike u strukturirane, uređujuće podatke – nema potrebe za ručnim ulaskom.
Za više primjera i tehničkih detalja, posjetite Aspose.OCR za .NET API reference .