Com extreure taules i dades de taula de les imatges amb Aspose.OCR

Com extreure taules i dades de taula de les imatges amb Aspose.OCR

L’extracció de taules d’imatges, formularis o informes escanejats és desafiant - la retipulació manual és lenta i sense errors. Aspose.OCR Taula a text per .NET automatitza l’extrakció i estructurament de dades tabulars de les imatges i les fotos.

El problema del món real

Les declaracions financeres, els formularis d’enquesta i els resultats científics sovint es troben atrapats en taules o imatges escanejades. Recrear manualment aquestes dades desperta hores i riscos introduint errors.

Revisió de solucions

Aspose.OCR per a .NET pot detectar, extreure i convertir amb precisió taules d’imatges o PDFs escanejats en formats que es poden llegir per màquina -perfectes per Excel, reportatge o automatització del flux de treball.

Prerequisits

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
  • C# coneixements bàsics
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Instal·la i configura Aspose.OCR

using Aspose.OCR;

Pas 2: Escanejar o fotografiar imatges que continguin taules

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Pas 3: Configureu les configuracions de reconeixement de taula

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Pas 4: Feu el procés d’extracció de taula

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pas 5: Dades de taula d’exportació

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Pas 6: Afegir tractament d’errors i validació

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pas 7: Optimitzar per a taules complexes, rotades o múltiples pàgines

  • Preprocés d’imatges a desquets o cultius
  • Utilitza escans o fotografies d’alta resolució
  • Per a PDFs de múltiples pàgines, afegir cada pàgina com a entrada separada
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Capítol 8: Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilitzar casos i aplicacions

Informes financers i científics

Extraure taules de les declaracions financeres, resultats de laboratori, o documents de recerca per a l’anàlisi instantània en Excel.

Anàlisi i forma de processament

Digitalitza les taules de formularis escanats, llistes de control o registres de censura.

Automatització del flux de treball

Feu les dades de taula estructurades directament a les seves aplicacions de negoci, eines de BI o bases de dades.

Els reptes i les solucions comunes

Challenge 1: Taules de baixa qualitat o complexes

Solució: Utilitza imatges d’alta velocitat i prova en set de mostres. Preprocés per millorar la claredat.

Títol 2: Taules rotades o esquivades

Solució: Desqueu les imatges abans de processar; utilitzeu DetectAreasMode.TABLE.

Títol 3: Reports de múltiples pàgines

Solució: Afegeix cada pàgina com a entrada separada per al processament de batxelles.

Consideracions de rendiment

  • Processos de batxillerat per velocitat
  • Utilitza escans / fotos d’alta qualitat
  • Disposar d’objectes OCR després de grans curses

Les millors pràctiques

  • Validació de la producció abans d’integració
  • Instal·lacions de reconeixement de taula segons el necessari
  • Backup de dades originals i digitalitzades
  • Prova amb mostres reals abans de la implantació

Escenaris avançats

Escenari 1: Extracció de taula multilingüe

settings.Language = Language.German;

Escenari 2: Exportació a JSON per a pipelines de dades

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Conclusió

Aspose.OCR Taula a text per .NET converteix les imatges i les escanades en dades de taula estructurades i executables, preparades per a anàlisi, reportatge i automatització.

Veure més mostres de codi de reconeixement de taula a la Aspose.OCR per a .NET API Referència .

 Català