Cum să extrageți datele de tabel din imagini cu Aspose.OCR
Extractarea tabelelor din imaginile scanate sau fotografiate este adesea un proces manual, prin erori. cu Aspose.OCR Table to Text pentru .NET, puteți automatiza extragerea datelor tabloului structurat din imagini – economisește timp, reduce erorile și permite integrarea fără întârziere cu baze de date, Excel sau instrumente de raportare.
Problema lumii reale
Întreprinderile primesc adesea tabele în facturi, rapoarte sau formulare, cum ar fi imagini sau scanări. reintroducerea manuală a acestor date în brochure sau platforme de analiză este ineficientă și cauzată de erori, în special pentru volumele mari sau tabelele complexe.
Soluție de ansamblu
Aspose.OCR Table to Text pentru .NET automatizează recunoașterea tabelului și extragerea datelor din imagini, identificând cu precizie structura și conținutul celulelor. Acest lucru vă permite să transformați tabelele scanate sau fotografiate în formate structurate, căutate și editabile cu cod minim.
Prevederile
Înainte de a începe, veți avea nevoie:
- Visual Studio 2019 sau mai târziu
- .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
- Aspose.OCR pentru .NET de la NuGet
- Cunoașterea C#
PM> Install-Package Aspose.OCR
Implementarea pas cu pas
Pasul 1: Instalați și configurați Aspose.OCR
Adăugați pachetul Aspose.OCR și includeți spațiile de nume necesare:
using Aspose.OCR;
Pasul 2: Pregătiți intrările imaginii de masă
Adăugați una sau mai multe imagini de tabel la intrarea dvs. Pentru extracția de batch, utilizați mai mulți fișiere.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Pasul 3: Configurați setările de recunoaștere a tabelului
Permite modul de detectare a tabelului pentru a se asigura că structura este recunoscută cu precizie.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Pasul 4: Începeți procesul de recunoaștere a masei
Recunoașteți tabelele cu setările configurate:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Pasul 5: Exportarea și utilizarea datelor de tabel
Salvați sau procesați datele de tabel recunoscute. puteți exporta în text, Excel, JSON sau alte formate.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Pasul 6: Adăugați gestionarea erorilor
Adăugați tratamentul cu excepții pentru a construi soluții robuste.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Pasul 7: Optimizarea tabelelor complexe
- Utilizați scanuri/fotografii de înaltă rezoluție pentru detectarea structurii exacte
- Testare cu diferite layout-uri de masă (celule amestecate, capete multi-line, limite)
- Tunează setările de recunoaștere după cum este necesar
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Pasul 8: Exemplu complet de lucru
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Folosește cazuri și aplicații
Rapoartele financiare și facturile
Extrageți automat tabelele de tranzacționare din imagini în Excel sau în sistemele de baze de date.
Cercetare și analiză
Digitizează tabelele din publicațiile scanate sau formularele de sondaj pentru analiza datelor.
Migrația automată a datelor
Migrați documente de moștenire sau înregistrări de hârtie scanate în formate structurate moderne.
Provocări și soluții comune
Provocare 1: Blurry sau imagini de masă complexe
Soluție: Utilizați imagini mai clare sau experimente cu preprocesare pentru a îmbunătăți recunoașterea structurii.
Provocare 2: Layout-uri de masă non-standard
Soluție: Testează și ajustează setările pentru layout-uri complexe sau tabele fără frontiere.
Sfârșitul 3: Big Batches sau tipuri de imagini mixte
Soluție: Utilizați procesarea batch-ului și scanarea directoriei pentru a automatiza extragerea din mai multe fișiere.
Considerații de performanță
- Utilizați imagini de înaltă lumină
- Procesul de batch pentru eficiență
- Dispunerea obiectelor OCR după utilizare
Cele mai bune practici
- Verificați întotdeauna datele de tabel exportate înainte de prelucrarea ulterioară
- Imagini prelucrate pentru detectarea optimă a structurii
- Secure și backup scanuri originale / imagini
- Utilizați formatul corect de export pentru fluxul de lucru (CSV, XLSX, JSON)
Scenarii avansate
Scenariul 1: Extracția tabelului de limbă mixtă
settings.Language = Language.Chinese;
Scenariul 2: Combinarea tabelului și a extracției textului
settings.DetectAreasMode = DetectAreasMode.COMBINE;
concluziile
Aspose.OCR Table to Text pentru .NET transformă tabelele de imagine în date structurate, editabile – nu este necesară intrarea manuală.
Pentru mai multe exemple și detalii tehnice, vizitați Aspose.OCR pentru .NET API Referință .