Come estrarre i dati strutturati da tabelle e forme in immagini
L’estrazione dei dati da tabelle scansionate o moduli riempiti è essenziale per l’automazione aziendale, la segnalazione e la conformità. ASPOSE.OCR Tabella a testo per .NET semplifica questo processo, rilevando accuratamente la struttura delle cellule e dei campi ed esportando in formati modificabili.
Il problema del mondo reale
Le aziende spesso ricevono fatturazioni, rapporti o moduli come immagini o scansioni.L’ingresso manuale dei dati di tabella o campi di modulo è lento, errato e costoso a scala.
Soluzione Overview
Con Table to Text per .NET, è possibile estrarre i dati strutturati – comprese linee, colonne e valori di campo – direttamente dalle immagini. i risultati possono essere esportati a Excel, JSON o integrati con database e piattaforme di automazione.
Prerequisiti
- Visual Studio 2019 o successivo
- .NET 6.0 o successivo (o .Net Framework 4.6.2+)
- Aspose.OCR per .NET da NuGet
- Le competenze C#
PM> Install-Package Aspose.OCR
Implementazione passo dopo passo
Passo 1: Installare e configurare Aspose.OCR
using Aspose.OCR;
Passo 2: Preparare la tabella o la forma delle immagini
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Passo 3: Configurare le impostazioni di riconoscimento per tabelle/formule
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Passo 4: Estratto dei dati di tabella o di forma
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Passo 5: Esportazioni strutturate
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Passo 6: gestire gli errori e valutare i risultati
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Passo 7: Ottimizzare le variazioni di tabella/forma
- Test su campioni con diverse frontiere, fonti o posizioni di campo
- Tune Preprocessing per la migliore rilevazione
Passo 8: Automatizzare l’estrazione di batch
Processare tutte le immagini pertinenti in una cartella:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Passo 9: un esempio completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utilizzare casi e applicazioni
La fatturazione e l’automazione dei rapporti
Eliminare i dati finanziari per la contabilità o l’analisi.
Formulari di indagine e registrazione
Pull risposte strutturate per sistemi CRM, ERP o BI.
Compliance e Audit
L’estrazione automatica e la validazione dei dati dai moduli o da tabelle presentati.
Sfide e soluzioni comuni
sfida 1: confini di tavola irregolari o layout
Soluzione: Utilizzare il pre-processamento e il tuning di campione per migliorare la rilevazione.
Challenge 2: Contenuto misto (Testo e tabelle)
Soluzione: Eseguire con AUTO o separare per tipo di immagine per i migliori risultati.
sfida 3: forme complesse con molti campi
Soluzione: Test e riconoscimento tweak per le forme ad alta densità.
Considerazioni di prestazioni
- Il riconoscimento della tavola è più intenso da CPU; monitorare i lavori di batch
- Validare le uscite per flussi di lavoro critici
- Batch esportazione per l’integrazione con altri strumenti
Migliori pratiche
- Validare i dati strutturati sui campioni prima di scalare
- Assicurare e archiviare sia le immagini sorgente che le uscite estratte
- Aggiornare Aspose.OCR regolarmente per miglioramenti di precisione
- Impostazioni Tune per nuovi layout di documenti
Scenari avanzati
Scenario 1: Esportazione a database o BI Tools
// Use JSON or Excel export for integration with data pipelines
Scenario 2: Extrazione in tempo reale in Web Apps
// Integrate extraction logic into ASP.NET or workflow API
conclusione
Aspose.OCR Table to Text per .NET ti consente di automatizzare l’estrazione strutturata dei dati da immagini e moduli, supportando tutto dall’automazione aziendale alla conformità e all’analisi.
Per le funzionalità avanzate di estrazione del tavolo, visita il Aspose.OCR per .NET API Reference .