Jak extrahovat tabule a tabulkové údaje z obrázků pomocí Aspose.OCR

Jak extrahovat tabule a tabulkové údaje z obrázků pomocí Aspose.OCR

Odstraňování tabulek z obrázků, formulářů nebo skenovaných zpráv je náročné – ruční retyping je pomalý a chybový. ASPOSE.OCR Tabulka do textu pro .NET automatizuje extrahování a strukturování dat ze snímků a fotografií.

Reálný světový problém

Finanční prohlášení, průzkumné formuláře a vědecké výsledky jsou často zamknuty v skenovaných tabulkách nebo snímcích. Manuální recyklace těchto údajů ztrácí hodiny a riziko zavádění chyb.

Řešení přehled

Aspose.OCR pro .NET může přesně detekovat, extrahovat a konvertovat tabulky z obrázků nebo skenovaných PDF do strojově čitelných formátů – ideální pro Excel, reporting nebo automatizaci pracovního toku.

Předpoklady

  • Visual Studio 2019 nebo novější
  • .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
  • Aspose.OCR pro .NET z NuGet
  • Základní znalosti C#
PM> Install-Package Aspose.OCR

krok za krokem implementace

Krok 1: Instalace a nastavení ASPOSE.OCR

using Aspose.OCR;

Krok 2: skenování nebo fotografování snímků obsahujících tabulky

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Krok 3: Nastavení rozpoznávání tabulky

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Krok 4: Proveďte proces extrakce stolu

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Vývozní tabulky

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Krok 6: Přidejte chování chyb a ověření

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizace pro komplexní, otáčené nebo vícestránkové tabulky

  • Předběžné zpracování snímků na deskew nebo crop
  • Použijte vysoce rozlišené skenování nebo fotografie
  • Pro vícestránkové PDF, přidejte každou stránku jako samostatný vstup
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Krok 8: Kompletní příklad

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použití případů a aplikací

Finanční a vědecká zpráva

Využijte tabulky z finančních zpráv, laboratorních výsledků nebo výzkumných dokumentů pro okamžitou analýzu v programu Excel.

Vyšetřování a zpracování formy

Digitalizujte tabulky z skenovaných formulářů, kontrolních seznamů nebo cenzurních záznamů.

Automatizace pracovního toku

Skládá strukturované tabulkové údaje přímo do vašich obchodních aplikací, nástrojů BI nebo databází.

Společné výzvy a řešení

Výzva 1: Špatná kvalita nebo komplexní tabulky

Rozhodnutí: Použijte obrázky s vysokým rozlišením a testujte na vzorcích.

Výzva 2: Otočené nebo zvrácené tabulky

Rozhodnutí: Deskew obrázky před zpracováním; používejte DetectAreasMode.TABLE.

Výzva 3: Vícestránkové zprávy

Rozhodnutí: Přidejte každou stránku jako samostatný vstup pro zpracování souborů.

Úvahy o výkonu

  • Batch proces pro rychlost
  • Využijte vysoce kvalitní skenování/fotografie
  • Nabídka předmětů OCR po velkých závodech

Nejlepší postupy

  • Potvrzení výstupu před integrací
  • Nastavení rozpoznávání tabulek podle potřeby
  • originální a digitalizované údaje
  • Testování s reálnými vzorky před uvedením

Pokročilé scénáře

Scénář 1: Multi-jazyčné stolní extrakce

settings.Language = Language.German;

Scénář 2: Vývoz do JSON pro datové potrubí

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

závěr

ASPOSE.OCR Tabulka do textu pro .NET přeměňuje obrázky a skenování na aktivní, strukturované tabulkové údaje – připravené pro analýzu, hlášení a automatizaci.

Zobrazit více vzorků identifikačního kódu v tabulce Aspose.OCR pro .NET API Reference .

 Čeština