Com extreure dades estructurades de taules i formes en imatges

Com extreure dades estructurades de taules i formes en imatges

L’extracció de dades de taules escanejades o formularis emplenats és essencial per a l’automatització de negocis, el reportatge i la conformitat. Aspose.OCR Taula a text per .NET simplifica aquest procés, detecta amb exactitud la estructura de cèl·lules i camps i exporta en formats editables.

El problema del món real

Les empreses sovint reben factures, informes o formularis com a imatges o escans.L’entrada manual de dades de taula o camps de formulari és lenta, per error i costosa a escala.

Revisió de solucions

Amb taula a text per a .NET, es poden extreure dades estructurades -incloses files, columnes i valors de camp - directament de les imatges.

Prerequisits

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
  • Capacitat de C#
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Instal·la i configura Aspose.OCR

using Aspose.OCR;

Pas 2: Prepara la taula o la forma de les imatges

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Pas 3: Configure les configuracions de reconeixement per a taules/formes

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Pas 4: Extraure dades de taula o formulari

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pas 5: Exportació estructurada de la producció

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Pas 6: gestionar els errors i validar els resultats

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pas 7: Optimitzar les variacions de taula/forma

  • Test en mostres amb diferents fronteres, fonts o plaçaments de camp
  • Instal·lacions de preprocessament per a la millor detecció

Pas 8: Extracció de batxillerat automàtica

Processar totes les imatges pertinents en una carpeta:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Pas 9: Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilitzar casos i aplicacions

La facturació i l’automatització del reportatge

Extraure dades financeres per a la comptabilitat o anàlisi.

Formulari d’investigació i registre

Reaccions estructurades per a sistemes CRM, ERP o BI.

Conformitat i auditoria

Extracció automàtica i validació de dades dels formularis o taules presentats.

Els reptes i les solucions comunes

Títol 1: Fronteres irregulars de taula o layouts

Solució: Utilitza preprocessament i tonificació de mostres per millorar la detecció.

Challenge 2: Contingut mixt (Text i taules)

** Solució: ** Executar amb AUTO o separar per tipus d’imatge per obtenir els millors resultats.

Challenge 3: Formes complexes amb molts camps

**Solució: **Test i reconeixement de tweak per a formes d’alta densitat.

Consideracions de rendiment

  • El reconeixement de taula és més CPU-intens; monitorar les tasques de batxillerat
  • Validació de les sortides per a fluxos de treball crítics
  • Exportació de batxines per a la integració amb altres eines

Les millors pràctiques

  • Validar les dades estructurades sobre les mostres abans d’escalar
  • Segura i arxiu les imatges de font i les sortides extraïdes
  • Actualitza Aspose.OCR regularment per a millores d’exactitud
  • Instal·lacions Tune per a nous dissenys de documents

Escenaris avançats

Escenari 1: Exportació a bases de dades o eines BI

// Use JSON or Excel export for integration with data pipelines

Escenari 2: Extracció en temps real en aplicacions web

// Integrate extraction logic into ASP.NET or workflow API

Conclusió

Aspose.OCR Taula a text per .NET li permet automatitzar l’extracció estructurada de dades d’imatges i formularis, donant suport a tot, des de la automatització de negocis fins a la conformitat i anàlisi.

Per a característiques avançades d’extracció de taula, visita el Aspose.OCR per a .NET API Referència .

 Català