Cum să extrageți tabele și datele de tabel din imagini cu Aspose.OCR
Extractarea tabelelor din imagini, forme sau rapoarte scanate este dificilă – retiparea manuală este lentă și fără erori. Aspose.OCR Table to Text for .NET automatizează extragerea și structurarea datelor tabelului din imaginile și fotografiile.
Problema lumii reale
Declarațiile financiare, formularele de sondaj și rezultatele științifice sunt adesea capturate în tabele sau imaginile scanate. recreația manuală a acestor date pierde ore și riscuri de introducere a erorilor.
Soluție de ansamblu
Aspose.OCR pentru .NET poate detecta, extrage și convertează cu precizie tabele din imagini sau PDF-uri scanate în formate de citit pe mașină – perfect pentru Excel, raportare sau automatizare a fluxului de lucru.
Prevederile
- Visual Studio 2019 sau mai târziu
- .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
- Aspose.OCR pentru .NET de la NuGet
- Cunoașterea C#
PM> Install-Package Aspose.OCR
Implementarea pas cu pas
Pasul 1: Instalați și configurați Aspose.OCR
using Aspose.OCR;
Pasul 2: Scanarea sau fotografierea imaginilor care conțin tabele
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Pasul 3: Configurați setările de recunoaștere a tabelului
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Pasul 4: Începeți procesul de extracție a masei
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Pasul 5: Datele tabelului de export
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Pasul 6: Adăugați gestionarea și validarea erorilor
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Pasul 7: Optimizarea tabelelor complexe, rotate sau multi pagini
- Imagini prelucrate pentru descărcare sau cultivare
- Utilizați scanuri sau fotografii de înaltă rezoluție
- Pentru mai multe pagini PDF, adăugați fiecare pagină ca intrare separată
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Pasul 8: Exemplu complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Folosește cazuri și aplicații
Raportarea financiară și științifică
Extrageți tabele din rapoarte financiare, rezultate de laborator sau documente de cercetare pentru analiza instantă în Excel.
Cercetare și formă de prelucrare
Digitizează tabelele din formularele scanate, listele de verificare sau înregistrările de cenzură.
Automatizarea fluxului de lucru
Furnizați datele tabloului structurat direct în aplicațiile dvs. de afaceri, instrumentele BI sau bazele de date.
Provocări și soluții comune
Provocare 1: Tablouri de calitate slabă sau complexe
Soluție: Utilizați imagini cu rezistență ridicată și testați seturile de eșantionare.
Cuvânt cheie: tablouri rotate sau tăiate
Soluție: Desceați imagini înainte de prelucrare; utilizați DetectAreasMode.TABLE.
Cuvânt cheie: Raporturi multi-pagini
Soluție: Adăugați fiecare pagină ca intrare separată pentru procesarea batch-ului.
Considerații de performanță
- Procesul de batch pentru viteza
- Folosește scanări / fotografii de înaltă calitate
- Dispunerea de obiecte OCR după cursuri mari
Cele mai bune practici
- Validarea producției înainte de integrare
- Setări de recunoaștere a tabelului Tune după cum este necesar
- Copiați datele originale și digitalizate
- Testarea cu mostre reale înainte de implementare
Scenarii avansate
Scenariul 1: Extracția de masă multilingvă
settings.Language = Language.German;
Scenariul 2: Exportul la JSON pentru pipelini de date
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
concluziile
Aspose.OCR Table to Text pentru .NET transformă imaginile și scanările în date de tabel structurate și executabile – pregătite pentru analiză, raportare și automatizare.
Vezi mai multe eșantioane de cod de recunoaștere tabel în Aspose.OCR pentru .NET API Referință .