Ako extrahovať tabuľky a tabulárne údaje z obrázkov s Aspose.OCR

Ako extrahovať tabuľky a tabulárne údaje z obrázkov s Aspose.OCR

Odstrániť tabuľky z obrázkov, formulárov alebo skenovaných správ je náročné – manuálne retyping je pomalý a bez chýb. Aspose.OCR Tabuľka na text pre .NET automatizuje extrakciu a štruktúru tabulárnych údajov z obrazov a fotografií.

Reálny svetový problém

Finančné vyhlásenia, formuláre prieskumu a vedecké výsledky sú často uväznené v skenovaných tabuľkách alebo obrázkoch. Manuálne obnovenie týchto údajov stráca hodiny a riziko zavádzania chýb.

Prehľad riešenia

Aspose.OCR pre .NET môže presne detekovať, extrahovať a premeniť tabuľky z obrázkov alebo skenovaných PDF do strojovo čitateľných formátov – ideálne pre Excel, reporting alebo automatizáciu pracovného toku.

Predpoklady

  • Visual Studio 2019 alebo neskôr
  • .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
  • Aspose.OCR pre .NET od NuGet
  • Základné C# vedomosti
PM> Install-Package Aspose.OCR

krok za krokom implementácia

Krok 1: Inštalácia a konfigurácia Aspose.OCR

using Aspose.OCR;

Krok 2: skenovanie alebo fotografovanie obrázkov obsahujúcich tabuľky

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Krok 3: Nastavenie rozpoznávania tabuľky

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Krok 4: Spustiť proces extrakcie stola

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Vývoz údajov tabuľky

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Krok 6: Pridať riešenie chýb a potvrdenie

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizácia pre komplexné, rotačné alebo viacstránkové tabuľky

  • Prepracovanie obrázkov na deskew alebo crop
  • Použitie vysoko rozlíšených skenov alebo fotografií
  • Pre viacstránkové PDF, pridajte každú stránku ako samostatný vstup
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Krok 8: Kompletný príklad

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použitie prípadov a aplikácií

Finančná a vedecká správa

Vyberte tabuľky z finančných vyhlásení, výsledkov laboratória alebo výskumných dokumentov pre okamžitú analýzu v programe Excel.

Prieskum a tvarovanie spracovania

Digitalizujte tabuľky zo skenovaných formulárov, kontrolných zoznamov alebo cenzúrnych záznamov.

Automatizácia pracovného toku

Skladujte štruktúrované tabuľkové údaje priamo do vašich obchodných aplikácií, BI nástrojov alebo databáz.

Spoločné výzvy a riešenia

Výzva 1: Zlá kvalita alebo komplexné tabuľky

Riešenie: Použite obrázky s vysokým rozlíšením a testujte na vzorkových súboroch.

Výzva 2: Otočené alebo zvrátené tabuľky

Riešenie: Odstrániť obrázky pred spracovaním; používať DetectAreasMode.TABLE.

Výzva 3: Viacstránkové správy

Riešenie: Pridajte každú stránku ako samostatný vstup na spracovanie batchov.

Preskúmanie výkonnosti

  • Batch proces pre rýchlosť
  • Používajte kvalitné skenovanie / fotografie
  • Dostupnosť objektov OCR po veľkých pretekoch

Najlepšie postupy

  • Potvrdenie výstupu pred integráciou
  • Nastavenie rozpoznávania tabuľky podľa potreby
  • Zálohovanie originálnych a digitalizovaných údajov
  • Testovanie s reálnymi vzorkami pred implementáciou

Pokročilé scenáre

Scenár 1: Multi-jazyčná tabuľka extrakcia

settings.Language = Language.German;

Scenár 2: Vývoz na JSON pre dátové potrubia

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Záver

ASPOSE.OCR Tabuľka na text pre .NET premieňa obrázky a skenovanie na vykonateľné, štruktúrované tabuľkové údaje – pripravené na analýzu, hlásenie a automatizáciu.

Pozrite si viac tabuliek identifikácie kódu vzorky v Aspose.OCR pre .NET API referencie .

 Slovenčina