Come estrarre tabelle e dati di tabella dalle immagini con Aspose.OCR
L’estratto di tabelle da immagini, moduli o rapporti scansionati è sfidante - la riproduzione manuale è lenta e pronta agli errori. Aspose.OCR Tabella a testo per .NET automatizza la estrazione e la struttura dei dati da tabella dalle immagini e dalle foto.
Il problema del mondo reale
Le dichiarazioni finanziarie, i moduli di sondaggio e i risultati scientifici sono spesso catturati in tabelle o immagini scansionate.Ricreando manualmente questi dati perdono ore e rischi di introdurre errori.
Soluzione Overview
Aspose.OCR per .NET può rilevare accuratamente, estrarre e convertire tabelle da immagini o PDF scansionati in formati leggibili da macchina – perfetti per Excel, reporting o automazione del flusso di lavoro.
Prerequisiti
- Visual Studio 2019 o successivo
- .NET 6.0 o successivo (o .Net Framework 4.6.2+)
- Aspose.OCR per .NET da NuGet
- Conoscenza C#
PM> Install-Package Aspose.OCR
Implementazione passo dopo passo
Passo 1: Installare e configurare Aspose.OCR
using Aspose.OCR;
Passo 2: Scansione o fotografia di immagini che contengono tabelle
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Passo 3: Configurare le impostazioni di riconoscimento della tabella
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Passo 4: Eseguire il processo di estrazione della tavola
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Passo 5: I dati della tabella di esportazione
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Passo 6: Aggiungi errore di gestione e validazione
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Passo 7: Ottimizzare per tabelle complesse, rotate o multi-pagine
- Immagini di prelievo per deskew o crop
- Utilizzare scansioni o foto ad alta risoluzione
- Per i PDF multipagine, aggiungere ogni pagina come input separato
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Passo 8 - Esempio completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utilizzare casi e applicazioni
Rapporto finanziario e scientifico
Extraggere tabelle dalle relazioni finanziarie, i risultati del laboratorio o i documenti di ricerca per l’analisi immediata in Excel.
Indagine e Form Processing
Digitalizzare le tabelle dai moduli scansionati, dalle liste di controllo o dai registri di censura.
Automazione del flusso di lavoro
Inserisci i dati di tabella strutturati direttamente nelle tue applicazioni aziendali, strumenti BI o database.
Sfide e soluzioni comuni
sfida 1: tabelle di scarsa qualità o complesse
Soluzione: Utilizzare immagini ad alta risorsa e testare sui set di campioni. Preprocesso per migliorare la chiarezza.
Challenge 2: Tabelle rotate o spezzate
Soluzione: Desciacquare le immagini prima di elaborare; utilizzare DetectAreasMode.TABLE.
Titolo originale: Challenge 3: Multi-Page Reports
Soluzione: Aggiungi ogni pagina come ingresso separato per il trattamento delle parti.
Considerazioni di prestazioni
- Batch per la velocità
- Utilizzare scansioni/foto di alta qualità
- Disporre di oggetti OCR dopo grandi corse
Migliori pratiche
- Validare la produzione prima dell’integrazione
- Tune tabella riconoscimento impostazioni come necessario
- Backup dei dati originali e digitalizzati
- Testare con campioni reali prima di impostare
Scenari avanzati
Scenario 1: Estrazione da tavolo multilingue
settings.Language = Language.German;
Scenario 2: esportazione a JSON per i tubi dati
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
conclusione
Aspose.OCR Tabella a testo per .NET trasforma le immagini e le scansioni in dati di tabella attivabili e strutturati, pronti per analisi, reporting e automazione.
Vedi più campioni di codice di riconoscimento della tabella nel Aspose.OCR per .NET API Reference .