Com extreure dades de taula de les imatges amb Aspose.OCR

Com extreure dades de taula de les imatges amb Aspose.OCR

L’extracció de taules d’imatges escanejades o fotografiades és sovint un procés manual, per error. Amb Aspose.OCR Taula a text per .NET, es pot automatitzar l’extrusió de dades estructurades de la taula de les imatges - estalviar temps, reduir errors, i permetre la integració sense segell amb les bases de datos, Excel, o eines de reportatge.

El problema del món real

Les empreses freqüentment reben taules en factures, informes o formularis com a imatges o escans. La reinserció manual d’aquestes dades en tauletes o plataformes analítiques és ineficaç i per error, especialment per a grans volums o tables complexes.

Revisió de solucions

Aspose.OCR Taula a text per .NET automatitza el reconeixement de taules i l’extracció de dades d’imatges, identificant amb exactitud la estructura cel·lular i el contingut. Això li permet transformar les tables escanejades o fotografiades en formats estructurats, buscables i editables amb codi mínim.

Prerequisits

Abans de començar, necessitaràs:

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
  • C# coneixements bàsics
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Instal·la i configura Aspose.OCR

Afegeix el paquet Aspose.OCR i inclou els espais de nom necessaris:

using Aspose.OCR;

Pas 2: Preparar les entrades d’imatge de taula

Afegir una o més imatges de taula a la seva entrada. per a l’extracció de batxines, utilitzeu múltiples fitxers.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Pas 3: Configureu les configuracions de reconeixement de taula

Permet el mode de detecció de taula per assegurar-se que la estructura es reconeix amb precisió.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Pas 4: Feu el procés de reconeixement de taula

Reconeix les taules amb les configuracions configurades:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pas 5: Exportació i utilització de dades de taula

Salvar o processar les dades de taula reconegudes. es pot exportar a text, Excel, JSON, o altres formats.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Pas 6: Afegir el tractament d’errors

Afegir tractament d’excepcions per construir solucions robustes.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pas 7: Optimitzar les taules complexes

  • Utilitza escans / fotografies d’alta resolució per a la detecció estructural exacta
  • Prova amb diversos dissenys de taula (cèl·lules barrejades, headers multi-line, fronteres)
  • Instal·lació de reconeixement segons el necessari
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Pas 8: Exemple de treball complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilitzar casos i aplicacions

Informe financer i facturació

Extraure taules de transacció de les imatges a Excel o sistemes de bases de dades automàticament.

Investigació i anàlisi

Digitalitzar taules de publicacions escanejades o formularis d’enquesta per a l’anàlisi de dades.

Migració automàtica de dades

Migra documents d’herència o registres de paper escanejats en formats estructurats moderns.

Els reptes i les solucions comunes

Challenge 1: Blurry o imatges de taula complexes

Solució: Utilitza imatges més clares o experiments amb preprocessament per millorar el reconeixement estructural.

Challenge 2: Layouts de taula no estàndard

**Solució: *Testar i ajustar les configuracions per a dissenys complexos o taules sense fronteres.

Challenge 3: grans batxes o tipus d’imatges mixtes

Solució: Utilitzeu el processament de batxils i l’escaneig de directoris per automatitzar la extracció de molts arxius.

Consideracions de rendiment

  • Utilitzeu imatges ben llistes i altes
  • Processos de batxillerat per a l’eficiència
  • Disposar d’objectes OCR després de l’ús

Les millors pràctiques

  • Sempre valideu les dades de taula exportades abans de processar-les
  • Imatges preprocessals per a la detecció òptima de la estructura
  • Secure i còpia de seguretat de les imatges/escans originals
  • Utilitzeu el format d’exportació adequat per al vostre flux de treball (CSV, XLSX, JSON)

Escenaris avançats

Escenari 1: Extracció de taula de llenguatge mixt

settings.Language = Language.Chinese;

Escenari 2: Combinació de taula i l’extracció del text

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Conclusió

Aspose.OCR Taula a text per .NET transforma taules d’imatges en dades estructurades i editables, sense entrada manual necessària.

Per a més exemples i detalls tècnics, visiteu el Aspose.OCR per a .NET API Referència .

 Català