Jak extrahovat tabule a tabulkové údaje z obrázků pomocí Aspose.OCR
Odstraňování tabulek z obrázků, formulářů nebo skenovaných zpráv je náročné – ruční retyping je pomalý a chybový. ASPOSE.OCR Tabulka do textu pro .NET automatizuje extrahování a strukturování dat ze snímků a fotografií.
Reálný světový problém
Finanční prohlášení, průzkumné formuláře a vědecké výsledky jsou často zamknuty v skenovaných tabulkách nebo snímcích. Manuální recyklace těchto údajů ztrácí hodiny a riziko zavádění chyb.
Řešení přehled
Aspose.OCR pro .NET může přesně detekovat, extrahovat a konvertovat tabulky z obrázků nebo skenovaných PDF do strojově čitelných formátů – ideální pro Excel, reporting nebo automatizaci pracovního toku.
Předpoklady
- Visual Studio 2019 nebo novější
- .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
- Aspose.OCR pro .NET z NuGet
- Základní znalosti C#
PM> Install-Package Aspose.OCR
krok za krokem implementace
Krok 1: Instalace a nastavení ASPOSE.OCR
using Aspose.OCR;
Krok 2: skenování nebo fotografování snímků obsahujících tabulky
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Krok 3: Nastavení rozpoznávání tabulky
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Krok 4: Proveďte proces extrakce stolu
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Vývozní tabulky
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Krok 6: Přidejte chování chyb a ověření
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optimalizace pro komplexní, otáčené nebo vícestránkové tabulky
- Předběžné zpracování snímků na deskew nebo crop
- Použijte vysoce rozlišené skenování nebo fotografie
- Pro vícestránkové PDF, přidejte každou stránku jako samostatný vstup
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Krok 8: Kompletní příklad
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Použití případů a aplikací
Finanční a vědecká zpráva
Využijte tabulky z finančních zpráv, laboratorních výsledků nebo výzkumných dokumentů pro okamžitou analýzu v programu Excel.
Vyšetřování a zpracování formy
Digitalizujte tabulky z skenovaných formulářů, kontrolních seznamů nebo cenzurních záznamů.
Automatizace pracovního toku
Skládá strukturované tabulkové údaje přímo do vašich obchodních aplikací, nástrojů BI nebo databází.
Společné výzvy a řešení
Výzva 1: Špatná kvalita nebo komplexní tabulky
Rozhodnutí: Použijte obrázky s vysokým rozlišením a testujte na vzorcích.
Výzva 2: Otočené nebo zvrácené tabulky
Rozhodnutí: Deskew obrázky před zpracováním; používejte DetectAreasMode.TABLE.
Výzva 3: Vícestránkové zprávy
Rozhodnutí: Přidejte každou stránku jako samostatný vstup pro zpracování souborů.
Úvahy o výkonu
- Batch proces pro rychlost
- Využijte vysoce kvalitní skenování/fotografie
- Nabídka předmětů OCR po velkých závodech
Nejlepší postupy
- Potvrzení výstupu před integrací
- Nastavení rozpoznávání tabulek podle potřeby
- originální a digitalizované údaje
- Testování s reálnými vzorky před uvedením
Pokročilé scénáře
Scénář 1: Multi-jazyčné stolní extrakce
settings.Language = Language.German;
Scénář 2: Vývoz do JSON pro datové potrubí
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
závěr
ASPOSE.OCR Tabulka do textu pro .NET přeměňuje obrázky a skenování na aktivní, strukturované tabulkové údaje – připravené pro analýzu, hlášení a automatizaci.
Zobrazit více vzorků identifikačního kódu v tabulce Aspose.OCR pro .NET API Reference .