Come estrarre i dati strutturati da tabelle e forme in immagini

Come estrarre i dati strutturati da tabelle e forme in immagini

L’estrazione dei dati da tabelle scansionate o moduli riempiti è essenziale per l’automazione aziendale, la segnalazione e la conformità. ASPOSE.OCR Tabella a testo per .NET semplifica questo processo, rilevando accuratamente la struttura delle cellule e dei campi ed esportando in formati modificabili.

Il problema del mondo reale

Le aziende spesso ricevono fatturazioni, rapporti o moduli come immagini o scansioni.L’ingresso manuale dei dati di tabella o campi di modulo è lento, errato e costoso a scala.

Soluzione Overview

Con Table to Text per .NET, è possibile estrarre i dati strutturati – comprese linee, colonne e valori di campo – direttamente dalle immagini. i risultati possono essere esportati a Excel, JSON o integrati con database e piattaforme di automazione.

Prerequisiti

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
  • Le competenze C#
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

using Aspose.OCR;

Passo 2: Preparare la tabella o la forma delle immagini

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Passo 3: Configurare le impostazioni di riconoscimento per tabelle/formule

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Passo 4: Estratto dei dati di tabella o di forma

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Esportazioni strutturate

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Passo 6: gestire gli errori e valutare i risultati

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Ottimizzare le variazioni di tabella/forma

  • Test su campioni con diverse frontiere, fonti o posizioni di campo
  • Tune Preprocessing per la migliore rilevazione

Passo 8: Automatizzare l’estrazione di batch

Processare tutte le immagini pertinenti in una cartella:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Passo 9: un esempio completo

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilizzare casi e applicazioni

La fatturazione e l’automazione dei rapporti

Eliminare i dati finanziari per la contabilità o l’analisi.

Formulari di indagine e registrazione

Pull risposte strutturate per sistemi CRM, ERP o BI.

Compliance e Audit

L’estrazione automatica e la validazione dei dati dai moduli o da tabelle presentati.

Sfide e soluzioni comuni

sfida 1: confini di tavola irregolari o layout

Soluzione: Utilizzare il pre-processamento e il tuning di campione per migliorare la rilevazione.

Challenge 2: Contenuto misto (Testo e tabelle)

Soluzione: Eseguire con AUTO o separare per tipo di immagine per i migliori risultati.

sfida 3: forme complesse con molti campi

Soluzione: Test e riconoscimento tweak per le forme ad alta densità.

Considerazioni di prestazioni

  • Il riconoscimento della tavola è più intenso da CPU; monitorare i lavori di batch
  • Validare le uscite per flussi di lavoro critici
  • Batch esportazione per l’integrazione con altri strumenti

Migliori pratiche

  • Validare i dati strutturati sui campioni prima di scalare
  • Assicurare e archiviare sia le immagini sorgente che le uscite estratte
  • Aggiornare Aspose.OCR regolarmente per miglioramenti di precisione
  • Impostazioni Tune per nuovi layout di documenti

Scenari avanzati

Scenario 1: Esportazione a database o BI Tools

// Use JSON or Excel export for integration with data pipelines

Scenario 2: Extrazione in tempo reale in Web Apps

// Integrate extraction logic into ASP.NET or workflow API

conclusione

Aspose.OCR Table to Text per .NET ti consente di automatizzare l’estrazione strutturata dei dati da immagini e moduli, supportando tutto dall’automazione aziendale alla conformità e all’analisi.

Per le funzionalità avanzate di estrazione del tavolo, visita il Aspose.OCR per .NET API Reference .

 Italiano