Cum să extrageți tabele și datele de tabel din imagini cu Aspose.OCR

Cum să extrageți tabele și datele de tabel din imagini cu Aspose.OCR

Extractarea tabelelor din imagini, forme sau rapoarte scanate este dificilă – retiparea manuală este lentă și fără erori. Aspose.OCR Table to Text for .NET automatizează extragerea și structurarea datelor tabelului din imaginile și fotografiile.

Problema lumii reale

Declarațiile financiare, formularele de sondaj și rezultatele științifice sunt adesea capturate în tabele sau imaginile scanate. recreația manuală a acestor date pierde ore și riscuri de introducere a erorilor.

Soluție de ansamblu

Aspose.OCR pentru .NET poate detecta, extrage și convertează cu precizie tabele din imagini sau PDF-uri scanate în formate de citit pe mașină – perfect pentru Excel, raportare sau automatizare a fluxului de lucru.

Prevederile

  • Visual Studio 2019 sau mai târziu
  • .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
  • Aspose.OCR pentru .NET de la NuGet
  • Cunoașterea C#
PM> Install-Package Aspose.OCR

Implementarea pas cu pas

Pasul 1: Instalați și configurați Aspose.OCR

using Aspose.OCR;

Pasul 2: Scanarea sau fotografierea imaginilor care conțin tabele

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Pasul 3: Configurați setările de recunoaștere a tabelului

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Pasul 4: Începeți procesul de extracție a masei

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pasul 5: Datele tabelului de export

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Pasul 6: Adăugați gestionarea și validarea erorilor

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pasul 7: Optimizarea tabelelor complexe, rotate sau multi pagini

  • Imagini prelucrate pentru descărcare sau cultivare
  • Utilizați scanuri sau fotografii de înaltă rezoluție
  • Pentru mai multe pagini PDF, adăugați fiecare pagină ca intrare separată
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Pasul 8: Exemplu complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Folosește cazuri și aplicații

Raportarea financiară și științifică

Extrageți tabele din rapoarte financiare, rezultate de laborator sau documente de cercetare pentru analiza instantă în Excel.

Cercetare și formă de prelucrare

Digitizează tabelele din formularele scanate, listele de verificare sau înregistrările de cenzură.

Automatizarea fluxului de lucru

Furnizați datele tabloului structurat direct în aplicațiile dvs. de afaceri, instrumentele BI sau bazele de date.

Provocări și soluții comune

Provocare 1: Tablouri de calitate slabă sau complexe

Soluție: Utilizați imagini cu rezistență ridicată și testați seturile de eșantionare.

Cuvânt cheie: tablouri rotate sau tăiate

Soluție: Desceați imagini înainte de prelucrare; utilizați DetectAreasMode.TABLE.

Cuvânt cheie: Raporturi multi-pagini

Soluție: Adăugați fiecare pagină ca intrare separată pentru procesarea batch-ului.

Considerații de performanță

  • Procesul de batch pentru viteza
  • Folosește scanări / fotografii de înaltă calitate
  • Dispunerea de obiecte OCR după cursuri mari

Cele mai bune practici

  • Validarea producției înainte de integrare
  • Setări de recunoaștere a tabelului Tune după cum este necesar
  • Copiați datele originale și digitalizate
  • Testarea cu mostre reale înainte de implementare

Scenarii avansate

Scenariul 1: Extracția de masă multilingvă

settings.Language = Language.German;

Scenariul 2: Exportul la JSON pentru pipelini de date

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

concluziile

Aspose.OCR Table to Text pentru .NET transformă imaginile și scanările în date de tabel structurate și executabile – pregătite pentru analiză, raportare și automatizare.

Vezi mai multe eșantioane de cod de recunoaștere tabel în Aspose.OCR pentru .NET API Referință .

 Română