Come estrarre tabelle e dati di tabella dalle immagini con Aspose.OCR

Come estrarre tabelle e dati di tabella dalle immagini con Aspose.OCR

L’estratto di tabelle da immagini, moduli o rapporti scansionati è sfidante - la riproduzione manuale è lenta e pronta agli errori. Aspose.OCR Tabella a testo per .NET automatizza la estrazione e la struttura dei dati da tabella dalle immagini e dalle foto.

Il problema del mondo reale

Le dichiarazioni finanziarie, i moduli di sondaggio e i risultati scientifici sono spesso catturati in tabelle o immagini scansionate.Ricreando manualmente questi dati perdono ore e rischi di introdurre errori.

Soluzione Overview

Aspose.OCR per .NET può rilevare accuratamente, estrarre e convertire tabelle da immagini o PDF scansionati in formati leggibili da macchina – perfetti per Excel, reporting o automazione del flusso di lavoro.

Prerequisiti

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
  • Conoscenza C#
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

using Aspose.OCR;

Passo 2: Scansione o fotografia di immagini che contengono tabelle

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Passo 3: Configurare le impostazioni di riconoscimento della tabella

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Passo 4: Eseguire il processo di estrazione della tavola

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: I dati della tabella di esportazione

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Passo 6: Aggiungi errore di gestione e validazione

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Ottimizzare per tabelle complesse, rotate o multi-pagine

  • Immagini di prelievo per deskew o crop
  • Utilizzare scansioni o foto ad alta risoluzione
  • Per i PDF multipagine, aggiungere ogni pagina come input separato
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Passo 8 - Esempio completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilizzare casi e applicazioni

Rapporto finanziario e scientifico

Extraggere tabelle dalle relazioni finanziarie, i risultati del laboratorio o i documenti di ricerca per l’analisi immediata in Excel.

Indagine e Form Processing

Digitalizzare le tabelle dai moduli scansionati, dalle liste di controllo o dai registri di censura.

Automazione del flusso di lavoro

Inserisci i dati di tabella strutturati direttamente nelle tue applicazioni aziendali, strumenti BI o database.

Sfide e soluzioni comuni

sfida 1: tabelle di scarsa qualità o complesse

Soluzione: Utilizzare immagini ad alta risorsa e testare sui set di campioni. Preprocesso per migliorare la chiarezza.

Challenge 2: Tabelle rotate o spezzate

Soluzione: Desciacquare le immagini prima di elaborare; utilizzare DetectAreasMode.TABLE.

Titolo originale: Challenge 3: Multi-Page Reports

Soluzione: Aggiungi ogni pagina come ingresso separato per il trattamento delle parti.

Considerazioni di prestazioni

  • Batch per la velocità
  • Utilizzare scansioni/foto di alta qualità
  • Disporre di oggetti OCR dopo grandi corse

Migliori pratiche

  • Validare la produzione prima dell’integrazione
  • Tune tabella riconoscimento impostazioni come necessario
  • Backup dei dati originali e digitalizzati
  • Testare con campioni reali prima di impostare

Scenari avanzati

Scenario 1: Estrazione da tavolo multilingue

settings.Language = Language.German;

Scenario 2: esportazione a JSON per i tubi dati

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

conclusione

Aspose.OCR Tabella a testo per .NET trasforma le immagini e le scansioni in dati di tabella attivabili e strutturati, pronti per analisi, reporting e automazione.

Vedi più campioni di codice di riconoscimento della tabella nel Aspose.OCR per .NET API Reference .

 Italiano