Com extreure taules i dades de taula de les imatges amb Aspose.OCR
L’extracció de taules d’imatges, formularis o informes escanejats és desafiant - la retipulació manual és lenta i sense errors. Aspose.OCR Taula a text per .NET automatitza l’extrakció i estructurament de dades tabulars de les imatges i les fotos.
El problema del món real
Les declaracions financeres, els formularis d’enquesta i els resultats científics sovint es troben atrapats en taules o imatges escanejades. Recrear manualment aquestes dades desperta hores i riscos introduint errors.
Revisió de solucions
Aspose.OCR per a .NET pot detectar, extreure i convertir amb precisió taules d’imatges o PDFs escanejats en formats que es poden llegir per màquina -perfectes per Excel, reportatge o automatització del flux de treball.
Prerequisits
- Visual Studio 2019 o posterior
- .NET 6.0 o posterior (o .Net Framework 4.6.2+)
- Aspose.OCR per a .NET des de NuGet
- C# coneixements bàsics
PM> Install-Package Aspose.OCR
Implementació de pas a pas
Pas 1: Instal·la i configura Aspose.OCR
using Aspose.OCR;
Pas 2: Escanejar o fotografiar imatges que continguin taules
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Pas 3: Configureu les configuracions de reconeixement de taula
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Pas 4: Feu el procés d’extracció de taula
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Pas 5: Dades de taula d’exportació
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Pas 6: Afegir tractament d’errors i validació
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Pas 7: Optimitzar per a taules complexes, rotades o múltiples pàgines
- Preprocés d’imatges a desquets o cultius
- Utilitza escans o fotografies d’alta resolució
- Per a PDFs de múltiples pàgines, afegir cada pàgina com a entrada separada
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Capítol 8: Exemple complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utilitzar casos i aplicacions
Informes financers i científics
Extraure taules de les declaracions financeres, resultats de laboratori, o documents de recerca per a l’anàlisi instantània en Excel.
Anàlisi i forma de processament
Digitalitza les taules de formularis escanats, llistes de control o registres de censura.
Automatització del flux de treball
Feu les dades de taula estructurades directament a les seves aplicacions de negoci, eines de BI o bases de dades.
Els reptes i les solucions comunes
Challenge 1: Taules de baixa qualitat o complexes
Solució: Utilitza imatges d’alta velocitat i prova en set de mostres. Preprocés per millorar la claredat.
Títol 2: Taules rotades o esquivades
Solució: Desqueu les imatges abans de processar; utilitzeu DetectAreasMode.TABLE.
Títol 3: Reports de múltiples pàgines
Solució: Afegeix cada pàgina com a entrada separada per al processament de batxelles.
Consideracions de rendiment
- Processos de batxillerat per velocitat
- Utilitza escans / fotos d’alta qualitat
- Disposar d’objectes OCR després de grans curses
Les millors pràctiques
- Validació de la producció abans d’integració
- Instal·lacions de reconeixement de taula segons el necessari
- Backup de dades originals i digitalitzades
- Prova amb mostres reals abans de la implantació
Escenaris avançats
Escenari 1: Extracció de taula multilingüe
settings.Language = Language.German;
Escenari 2: Exportació a JSON per a pipelines de dades
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Conclusió
Aspose.OCR Taula a text per .NET converteix les imatges i les escanades en dades de taula estructurades i executables, preparades per a anàlisi, reportatge i automatització.
Veure més mostres de codi de reconeixement de taula a la Aspose.OCR per a .NET API Referència .