Cum să extrageți datele de tabel din imagini cu Aspose.OCR

Cum să extrageți datele de tabel din imagini cu Aspose.OCR

Extractarea tabelelor din imaginile scanate sau fotografiate este adesea un proces manual, prin erori. cu Aspose.OCR Table to Text pentru .NET, puteți automatiza extragerea datelor tabloului structurat din imagini – economisește timp, reduce erorile și permite integrarea fără întârziere cu baze de date, Excel sau instrumente de raportare.

Problema lumii reale

Întreprinderile primesc adesea tabele în facturi, rapoarte sau formulare, cum ar fi imagini sau scanări. reintroducerea manuală a acestor date în brochure sau platforme de analiză este ineficientă și cauzată de erori, în special pentru volumele mari sau tabelele complexe.

Soluție de ansamblu

Aspose.OCR Table to Text pentru .NET automatizează recunoașterea tabelului și extragerea datelor din imagini, identificând cu precizie structura și conținutul celulelor. Acest lucru vă permite să transformați tabelele scanate sau fotografiate în formate structurate, căutate și editabile cu cod minim.

Prevederile

Înainte de a începe, veți avea nevoie:

  • Visual Studio 2019 sau mai târziu
  • .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
  • Aspose.OCR pentru .NET de la NuGet
  • Cunoașterea C#
PM> Install-Package Aspose.OCR

Implementarea pas cu pas

Pasul 1: Instalați și configurați Aspose.OCR

Adăugați pachetul Aspose.OCR și includeți spațiile de nume necesare:

using Aspose.OCR;

Pasul 2: Pregătiți intrările imaginii de masă

Adăugați una sau mai multe imagini de tabel la intrarea dvs. Pentru extracția de batch, utilizați mai mulți fișiere.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Pasul 3: Configurați setările de recunoaștere a tabelului

Permite modul de detectare a tabelului pentru a se asigura că structura este recunoscută cu precizie.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Pasul 4: Începeți procesul de recunoaștere a masei

Recunoașteți tabelele cu setările configurate:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pasul 5: Exportarea și utilizarea datelor de tabel

Salvați sau procesați datele de tabel recunoscute. puteți exporta în text, Excel, JSON sau alte formate.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Pasul 6: Adăugați gestionarea erorilor

Adăugați tratamentul cu excepții pentru a construi soluții robuste.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pasul 7: Optimizarea tabelelor complexe

  • Utilizați scanuri/fotografii de înaltă rezoluție pentru detectarea structurii exacte
  • Testare cu diferite layout-uri de masă (celule amestecate, capete multi-line, limite)
  • Tunează setările de recunoaștere după cum este necesar
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Pasul 8: Exemplu complet de lucru

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Folosește cazuri și aplicații

Rapoartele financiare și facturile

Extrageți automat tabelele de tranzacționare din imagini în Excel sau în sistemele de baze de date.

Cercetare și analiză

Digitizează tabelele din publicațiile scanate sau formularele de sondaj pentru analiza datelor.

Migrația automată a datelor

Migrați documente de moștenire sau înregistrări de hârtie scanate în formate structurate moderne.

Provocări și soluții comune

Provocare 1: Blurry sau imagini de masă complexe

Soluție: Utilizați imagini mai clare sau experimente cu preprocesare pentru a îmbunătăți recunoașterea structurii.

Provocare 2: Layout-uri de masă non-standard

Soluție: Testează și ajustează setările pentru layout-uri complexe sau tabele fără frontiere.

Sfârșitul 3: Big Batches sau tipuri de imagini mixte

Soluție: Utilizați procesarea batch-ului și scanarea directoriei pentru a automatiza extragerea din mai multe fișiere.

Considerații de performanță

  • Utilizați imagini de înaltă lumină
  • Procesul de batch pentru eficiență
  • Dispunerea obiectelor OCR după utilizare

Cele mai bune practici

  • Verificați întotdeauna datele de tabel exportate înainte de prelucrarea ulterioară
  • Imagini prelucrate pentru detectarea optimă a structurii
  • Secure și backup scanuri originale / imagini
  • Utilizați formatul corect de export pentru fluxul de lucru (CSV, XLSX, JSON)

Scenarii avansate

Scenariul 1: Extracția tabelului de limbă mixtă

settings.Language = Language.Chinese;

Scenariul 2: Combinarea tabelului și a extracției textului

settings.DetectAreasMode = DetectAreasMode.COMBINE;

concluziile

Aspose.OCR Table to Text pentru .NET transformă tabelele de imagine în date structurate, editabile – nu este necesară intrarea manuală.

Pentru mai multe exemple și detalii tehnice, vizitați Aspose.OCR pentru .NET API Referință .

 Română