Cum să extrageți datele structurate din tabele și formele în imagini
Extractarea datelor din tabele scanate sau formularele completate este esențială pentru automatizarea, raportarea și conformitatea afacerilor. ASPOSE.OCR Table to Text pentru .NET simplifică acest proces, detectând cu precizie structura celulelor și a câmpului și exportând în formate editabile.
Problema lumii reale
Companiile primesc adesea facturile, rapoartele sau formularele ca imagini sau scanuri. intrarea manuală a datelor de tabel sau a câmpurilor de formular este lentă, lipsită de erori și costisitoare pe scară largă.
Soluție de ansamblu
Cu tabelul în text pentru .NET, puteți extrage date structurate – inclusiv rânduri, coloane și valori de câmp – direct din imagini. rezultatele pot fi exportate la Excel, JSON sau integrate cu baze de date și platforme de automatizare.
Prevederile
- Visual Studio 2019 sau mai târziu
- .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
- Aspose.OCR pentru .NET de la NuGet
- Abilități de bază C#
PM> Install-Package Aspose.OCR
Implementarea pas cu pas
Pasul 1: Instalați și configurați Aspose.OCR
using Aspose.OCR;
Pasul 2: Pregătiți tabelul sau imaginea formularului
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Pasul 3: Configurați setările de recunoaștere pentru tabele/formele
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Pasul 4: Extrageți tabelul sau datele de formular
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Pasul 5: Exportul produselor structurate
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Pasul 6: Tratarea erorilor și validarea rezultatelor
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Pasul 7: Optimizarea variantei de tabel/formă
- Testare pe mostre cu granițe diferite, fonturi sau plasamente de câmp
- Setări de prelucrare Tune pentru cea mai bună detectare
Pasul 8: Extracția automată a batch-ului
Procesarea tuturor imaginilor relevante într-un folder:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Pasul 9: Exemplu complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Folosește cazuri și aplicații
Factura și automatizarea raportului
Extragerea datelor financiare pentru contabilitate sau analiză.
Formularele de anchetă și de înregistrare
Pull răspunsuri structurate pentru sistemele CRM, ERP sau BI.
Conformitate și audit
Extragerea și validarea automată a datelor din formularele sau tabelele prezentate.
Provocări și soluții comune
Provocare 1: Granițe de masă neregulate sau layout-uri
Soluție: Utilizați prelucrarea preprocesată și tuning-ul de eșantion pentru a îmbunătăți detectarea.
Challenge 2: Conținut mixt (Text și tabele)
Soluție: Run cu AUTO sau separat după tipul de imagine pentru cele mai bune rezultate.
Provocare 3: Formele complexe cu mai multe câmpuri
Soluție: Testare și recunoaștere de tweak pentru formele de înaltă densitate.
Considerații de performanță
- Recunoașterea de masă este mai intensă cu CPU; monitorizarea activităților de batch
- Validarea rezultatelor pentru fluxurile critice de lucru
- Exportul de batch pentru integrare cu alte instrumente
Cele mai bune practici
- Validați datele structurate pe eșantioane înainte de scalare
- Secure și arhivează atât imaginile de sursă, cât și rezultatele extrase
- Actualizează Aspose.OCR în mod regulat pentru îmbunătățiri de precizie
- Setări Tune pentru noi layout-uri de documente
Scenarii avansate
Scenariul 1: Exportarea la bazele de date sau la instrumentele BI
// Use JSON or Excel export for integration with data pipelines
Scenariul 2: Extracția în timp real în aplicațiile web
// Integrate extraction logic into ASP.NET or workflow API
concluziile
Aspose.OCR Table to Text pentru .NET vă permite să automatizați extragerea structurată a datelor din imagini și formulare, susținând totul de la automatizarea afacerilor la conformitate și analiză.
Pentru caracteristici avansate de extracție de masă, vizitați Aspose.OCR pentru .NET API Referință .