Com extreure dades estructurades de taules i formes en imatges
L’extracció de dades de taules escanejades o formularis emplenats és essencial per a l’automatització de negocis, el reportatge i la conformitat. Aspose.OCR Taula a text per .NET simplifica aquest procés, detecta amb exactitud la estructura de cèl·lules i camps i exporta en formats editables.
El problema del món real
Les empreses sovint reben factures, informes o formularis com a imatges o escans.L’entrada manual de dades de taula o camps de formulari és lenta, per error i costosa a escala.
Revisió de solucions
Amb taula a text per a .NET, es poden extreure dades estructurades -incloses files, columnes i valors de camp - directament de les imatges.
Prerequisits
- Visual Studio 2019 o posterior
- .NET 6.0 o posterior (o .Net Framework 4.6.2+)
- Aspose.OCR per a .NET des de NuGet
- Capacitat de C#
PM> Install-Package Aspose.OCR
Implementació de pas a pas
Pas 1: Instal·la i configura Aspose.OCR
using Aspose.OCR;
Pas 2: Prepara la taula o la forma de les imatges
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Pas 3: Configure les configuracions de reconeixement per a taules/formes
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Pas 4: Extraure dades de taula o formulari
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Pas 5: Exportació estructurada de la producció
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Pas 6: gestionar els errors i validar els resultats
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Pas 7: Optimitzar les variacions de taula/forma
- Test en mostres amb diferents fronteres, fonts o plaçaments de camp
- Instal·lacions de preprocessament per a la millor detecció
Pas 8: Extracció de batxillerat automàtica
Processar totes les imatges pertinents en una carpeta:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Pas 9: Exemple complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utilitzar casos i aplicacions
La facturació i l’automatització del reportatge
Extraure dades financeres per a la comptabilitat o anàlisi.
Formulari d’investigació i registre
Reaccions estructurades per a sistemes CRM, ERP o BI.
Conformitat i auditoria
Extracció automàtica i validació de dades dels formularis o taules presentats.
Els reptes i les solucions comunes
Títol 1: Fronteres irregulars de taula o layouts
Solució: Utilitza preprocessament i tonificació de mostres per millorar la detecció.
Challenge 2: Contingut mixt (Text i taules)
** Solució: ** Executar amb AUTO o separar per tipus d’imatge per obtenir els millors resultats.
Challenge 3: Formes complexes amb molts camps
**Solució: **Test i reconeixement de tweak per a formes d’alta densitat.
Consideracions de rendiment
- El reconeixement de taula és més CPU-intens; monitorar les tasques de batxillerat
- Validació de les sortides per a fluxos de treball crítics
- Exportació de batxines per a la integració amb altres eines
Les millors pràctiques
- Validar les dades estructurades sobre les mostres abans d’escalar
- Segura i arxiu les imatges de font i les sortides extraïdes
- Actualitza Aspose.OCR regularment per a millores d’exactitud
- Instal·lacions Tune per a nous dissenys de documents
Escenaris avançats
Escenari 1: Exportació a bases de dades o eines BI
// Use JSON or Excel export for integration with data pipelines
Escenari 2: Extracció en temps real en aplicacions web
// Integrate extraction logic into ASP.NET or workflow API
Conclusió
Aspose.OCR Taula a text per .NET li permet automatitzar l’extracció estructurada de dades d’imatges i formularis, donant suport a tot, des de la automatització de negocis fins a la conformitat i anàlisi.
Per a característiques avançades d’extracció de taula, visita el Aspose.OCR per a .NET API Referència .