Come estrarre i dati di tabella dalle immagini con Aspose.OCR

Come estrarre i dati di tabella dalle immagini con Aspose.OCR

Con Aspose.OCR Table to Text per .NET, è possibile automatizzare l’estrazione dei dati di tabella strutturata dalle immagini - risparmiare tempo, ridurre gli errori, e consentire la integrazione senza sforzo con database, Excel, o strumenti di segnalazione.

Il problema del mondo reale

Le aziende ricevono frequentemente tabelle in fatturati, rapporti o moduli come immagini o scansioni. Ripristinare manualmente questi dati in schede o piattaforme di analisi è inefficace e a rischio di errori, specialmente per grandi volumi o tabele complesse.

Soluzione Overview

Aspose.OCR Tabella a testo per .NET automatizza il riconoscimento della tabella e l’estrazione dei dati dalle immagini, identificando accuratamente la struttura cellulare e il contenuto. Questo ti consente di trasformare le tabelle scansionate o fotografate in formati strutturati, ricercabili e modificabili con codice minimo.

Prerequisiti

Prima di iniziare, avrai bisogno di:

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
  • Conoscenza C#
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

Aggiungi il pacchetto Aspose.OCR e includi gli spazi di nome necessari:

using Aspose.OCR;

Passo 2: Preparare l’immagine da tavolo

Aggiungi una o più immagini da tavolo alla tua input. per l’estrazione di batch, utilizzare più file.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Passo 3: Configurare le impostazioni di riconoscimento della tabella

Attivare il modo di rilevamento della tabella per garantire che la struttura sia accuratamente riconosciuta.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Passo 4: Eseguire il processo di riconoscimento della tabella

Riconoscere le tabelle con le impostazioni configurate:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Esportare e utilizzare i dati di tabella

Conservare o elaborare i dati di tabella riconosciuti. Puoi esportare in testo, Excel, JSON, o altri formati.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Passo 6: Aggiungi errori di gestione

Aggiungi la gestione delle eccezioni per costruire soluzioni robuste.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Ottimizzare le tabelle complesse

  • Utilizzare scansioni/fotografie ad alta risoluzione per la rilevazione accurata della struttura
  • Test con diversi layout di tavolo (celle mescolate, headers multi-line, confini)
  • Tune le impostazioni di riconoscimento se necessario
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Passo 8: Esempio di lavoro completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilizzare casi e applicazioni

Rapporti finanziari e fatturazioni

Extraggere le tabelle di transazioni dalle immagini in Excel o sistemi di database automaticamente.

Ricerca e analisi

Digitalizzare le tabelle da pubblicazioni scansionate o moduli di sondaggio per l’analisi dei dati.

Migrazione automatica dei dati

Migrazione di documenti di eredità o registri di carta scansionati in formati strutturati moderni.

Sfide e soluzioni comuni

Challenge 1: Blurry o Immagini da tavolo complessi

Soluzione: Utilizzare immagini più chiare o sperimentare con preprocessaggio per migliorare il riconoscimento strutturale.

Challenge 2: disegni di tavolo non standard

Soluzione: Testare e modificare le impostazioni per layout complessi o tabelle illimitate.

Challenge 3: Big Batches o Tipi di immagine misti

Soluzione: Utilizzare il processamento di batch e la scansione del directory per automatizzare l’estrazione da molti file.

Considerazioni di prestazioni

  • Utilizzare immagini ben illuminate, elevate
  • Batch per l’efficienza
  • Disporre di oggetti OCR dopo l’uso

Migliori pratiche

  • Validare sempre i dati di tabella esportati prima di ulteriore elaborazione
  • Immagini preliminari per la rilevazione ottimale della struttura
  • Sicuro e backup scansioni/immagini originali
  • Utilizzare il giusto formato di esportazione per il tuo flusso di lavoro (CSV, XLSX, JSON)

Scenari avanzati

Scenario 1: Estrazione della tavola di linguaggio misto

settings.Language = Language.Chinese;

Scenario 2: combinazione di tabella e estrazione di testo

settings.DetectAreasMode = DetectAreasMode.COMBINE;

conclusione

Aspose.OCR Table to Text per .NET trasforma le tabelle immagine in dati strutturati edilizzabili - nessun ingresso manuale richiesto.

Per ulteriori informazioni e dettagli tecnici, visita il Aspose.OCR per .NET API Reference .

 Italiano