Ako extrahovať tabuľkové údaje z obrázkov s Aspose.OCR

Ako extrahovať tabuľkové údaje z obrázkov s Aspose.OCR

Odstránenie tabuliek z skenovaných alebo fotografovaných obrázkov je často manuálnym procesom, ktorý je spôsobený chybami. s ASPOSE.OCR Tabuľka na text pre .NET môžete automatizovať odstraňovanie štruktúrovaných tabuľkových údajov z obrazov – šetrí čas, znižuje chyby a umožňuje bezproblémovú integráciu s databázami, Excelom alebo spravodajskými nástrojmi.

Reálny svetový problém

Podniky často dostávajú tabuľky v faktúrach, správach alebo formulároch ako obrázky alebo skenovanie. Manuálne re-inštalácia týchto údajov do šípkových tabuliek alebo analytických platforiem je neefektívne a chýbajúce, najmä pre veľké objemy alebo komplexné tabule.

Prehľad riešenia

Aspose.OCR Tabuľka na text pre .NET automatizuje rozpoznávanie tabuľky a extrakciu údajov z obrázkov, presne identifikovať bunkovú štruktúru a obsah. To vám umožní premeniť skenované alebo fotografované tabulky na strukturované, vyhľadávateľné a editovateľné formáty s minimálnym kódom.

Predpoklady

Pred začatím budete potrebovať:

  • Visual Studio 2019 alebo neskôr
  • .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
  • Aspose.OCR pre .NET od NuGet
  • Základné C# vedomosti
PM> Install-Package Aspose.OCR

krok za krokom implementácia

Krok 1: Inštalácia a konfigurácia Aspose.OCR

Pridajte balík Aspose.OCR a zahrnite potrebné názvové priestory:

using Aspose.OCR;

Krok 2: Pripravte tabuľkové obrázky

Pridajte jeden alebo viac tabuľkových obrázkov do vášho vstupu. pre extrakciu súborov použite viaceré súbory.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Krok 3: Nastavenie rozpoznávania tabuľky

Umožňuje režim detekcie tabuľky, aby sa zabezpečilo, že štruktúra je presne rozpoznaná.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Krok 4: Spustiť proces rozpoznávania tabuľky

Identifikujte tabuľky s konfigurovanými nastavením:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Export a používanie tabuľkových údajov

Uložiť alebo spracovať uznávané tabuľkové údaje. Môžete exportovať do textu, Excel, JSON, alebo iných formátov.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Krok 6: Pridať chybové riešenie

Pridajte výnimku na vytvorenie robustných riešení.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizácia pre komplexné tabuľky

  • Použite vysoko rozlíšené skenovanie/fotografie pre presnú detekciu štruktúry
  • Testovanie s rôznymi rozloženiami tabuľky (zmiešané bunky, hlavice viacerých línií, hranice)
  • Tune rozpoznávacie nastavenia podľa potreby
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Krok 8: Kompletný pracovný príklad

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použitie prípadov a aplikácií

Finančné správy a faktúry

Automaticky extrahujte transakčné tabuľky z obrázkov do systému Excel alebo databáz.

Výskum a analýza

Digitalizujte tabuľky zo skenovaných publikácií alebo prieskumných formulárov pre analýzu údajov.

Automatická migrácia údajov

Migrujte dedičné dokumenty alebo skenované papierové záznamy do moderných štruktúrovaných formátov.

Spoločné výzvy a riešenia

Výzva 1: Blurry alebo komplexné tabuľkové obrázky

Riešenie: Použite jasnejšie obrázky alebo experiment s predbežným spracovaním na zlepšenie rozpoznávania štruktúry.

Výzva 2: Neštandardné tabuľkové rozloženie

Riešenie: Testovať a upraviť nastavenia pre komplexné rozloženia alebo bezhraničné tabuľky.

Výzva 3: Veľké bitky alebo zmiešané typy obrázkov

Riešenie: Použite spracovanie súborov a skenovanie adresárov na automatizáciu extrakcie z mnohých súboroch.

Preskúmanie výkonnosti

  • Použite dobre osvetlené, vysokorýchlostné obrázky
  • Batch proces pre efektívnosť
  • Umiestnenie OCR objektov po použití

Najlepšie postupy

  • Vždy overte exportované tabuľkové údaje pred ďalším spracovaním
  • Predbežné snímky pre optimálnu detekciu štruktúry
  • Bezpečné a zálohované originálne skenovanie / obrázky
  • Použite správny exportný formát pre váš pracovný tok (CSV, XLSX, JSON)

Pokročilé scenáre

Scenár 1: Mixed-Language Tabuľka extrakcia

settings.Language = Language.Chinese;

Scenár 2: Kombinácia tabuľky a textovej extrakcie

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Záver

ASPOSE.OCR Tabuľka na text pre .NET transformuje obrázkové tabuľky do štruktúrovaných, upraviteľných údajov – nie je potrebný manuálny vstup.

Pre ďalšie príklady a technické podrobnosti navštívte Aspose.OCR pre .NET API referencie .

 Slovenčina