Jak extrahovat tabulkové údaje z obrázků pomocí Aspose.OCR

Jak extrahovat tabulkové údaje z obrázků pomocí Aspose.OCR

Odstraňování tabulek z skenovaných nebo fotografovaných obrázků je často manuální, chybově vyvolaný proces. Pomocí ASPOSE.OCR Tabulka do textu pro .NET můžete automatizovat extrahování strukturovaných dat z obrazů – šetří čas, snižuje chyby a umožňuje bezproblémovou integraci s databázemi, Excelem nebo sdělovacími nástroji.

Reálný světový problém

Podniky často obdrží tabulky v fakturách, zprávách nebo formulářích jako obrázky nebo skenování. Ručně znovu vložit tyto údaje do šířek nebo analytických platforem je neúčinné a chybově příznivé, zejména pro velké množství nebo složité tabule.

Řešení přehled

Aspose.OCR Tabulka do textu pro .NET automatizuje rozpoznávání tabulek a extrahování dat z obrázků, přesně identifikuje buněčnou strukturu a obsah. To umožňuje transformovat skenované nebo fotografované tabule do strukturovaných, vyhledatelných a editovatelných formátů s minimálním kódem.

Předpoklady

Než začnete, budete potřebovat:

  • Visual Studio 2019 nebo novější
  • .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
  • Aspose.OCR pro .NET z NuGet
  • Základní znalosti C#
PM> Install-Package Aspose.OCR

krok za krokem implementace

Krok 1: Instalace a nastavení ASPOSE.OCR

Přidejte balíček Aspose.OCR a zahrněte potřebné názevové prostory:

using Aspose.OCR;

Krok 2: Připravte tabulkové obrázky

Přidejte jeden nebo více tabulkových obrázků do vašeho vstupu. pro extrakci sadu použijte více souborů.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Krok 3: Nastavení rozpoznávání tabulky

Umožňuje režim detekce tabulky, aby byla zajištěna přesná identifikace struktury.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Krok 4: Proveďte proces rozpoznávání stolů

Rozpoznat tabulky s konfigurovanými nastaveními:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Vývoz a použití tabulkových údajů

Shromažďujte nebo zpracováváte uznávané tabulkové údaje.Můžete exportovat do textu, Excelu, JSONu nebo jiného formátu.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Krok 6: Přidejte chybové řešení

Přidejte výjimku k vybudování robustních řešení.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizace pro komplexní tabulky

  • Použijte vysoce rozlišené skenování/fotografie pro přesnou detekci struktury
  • Testování s různými rozloženími stolů (smíšené buňky, multi-line hlavice, hranice)
  • Tune rozpoznávací nastavení podle potřeby
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Krok 8: Kompletní pracovní příklad

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použití případů a aplikací

Finanční zprávy a faktury

Automaticky extrahujte transakční tabulky z obrázků do systému Excel nebo databáze.

Výzkum a analýza

Digitalizujte tabulky z skenovaných publikací nebo průzkumných formulářů pro analýzu dat.

Automatická data migrace

Migrace dědičných dokumentů nebo skenovaných papírových záznamů do moderních strukturovaných formátů.

Společné výzvy a řešení

Výzva 1: Blurry nebo komplexní tabulkové obrázky

Rozhodnutí: Použijte jasnější obrázky nebo experiment s předprocesováním pro zlepšení rozpoznávání struktury.

Výzva 2: Neštandardní tabulkové rozložení

Rozhodnutí: Testovat a upravovat nastavení pro složité rozložení nebo bezhraniční tabulky.

Výzva 3: Velké snímky nebo smíšené typy obrazů

Rozhodnutí: Použijte zpracování souborů a skenování adresářů k automatizaci extrakce z mnoha soubory.

Úvahy o výkonu

  • Využijte dobře osvětlené, vysokorychlostní obrázky
  • Batchový proces pro efektivitu
  • Objekty OCR po použití

Nejlepší postupy

  • Vždy ověřte exportované tabulkové údaje před další zpracováním
  • Předprocesní snímky pro optimální detekci struktury
  • Bezpečné a zálohované originální skenování / snímky
  • Použijte správný exportní formát pro váš pracovní tok (CSV, XLSX, JSON)

Pokročilé scénáře

Scénář 1: Mixed-Language Table Extraction

settings.Language = Language.Chinese;

Scénář 2: Kombinace tabulky a textové extrakce

settings.DetectAreasMode = DetectAreasMode.COMBINE;

závěr

ASPOSE.OCR Tabulka do textu pro .NET přeměňuje obrázkové tabulky na strukturované, editovatelné údaje – žádný manuální vstup není požadován.

Pro další příklady a technické podrobnosti navštivte Aspose.OCR pro .NET API Reference .

 Čeština