Ako extrahovať tabuľky a tabulárne údaje z obrázkov s Aspose.OCR
Odstrániť tabuľky z obrázkov, formulárov alebo skenovaných správ je náročné – manuálne retyping je pomalý a bez chýb. Aspose.OCR Tabuľka na text pre .NET automatizuje extrakciu a štruktúru tabulárnych údajov z obrazov a fotografií.
Reálny svetový problém
Finančné vyhlásenia, formuláre prieskumu a vedecké výsledky sú často uväznené v skenovaných tabuľkách alebo obrázkoch. Manuálne obnovenie týchto údajov stráca hodiny a riziko zavádzania chýb.
Prehľad riešenia
Aspose.OCR pre .NET môže presne detekovať, extrahovať a premeniť tabuľky z obrázkov alebo skenovaných PDF do strojovo čitateľných formátov – ideálne pre Excel, reporting alebo automatizáciu pracovného toku.
Predpoklady
- Visual Studio 2019 alebo neskôr
- .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
- Aspose.OCR pre .NET od NuGet
- Základné C# vedomosti
PM> Install-Package Aspose.OCR
krok za krokom implementácia
Krok 1: Inštalácia a konfigurácia Aspose.OCR
using Aspose.OCR;
Krok 2: skenovanie alebo fotografovanie obrázkov obsahujúcich tabuľky
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Krok 3: Nastavenie rozpoznávania tabuľky
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Krok 4: Spustiť proces extrakcie stola
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Vývoz údajov tabuľky
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Krok 6: Pridať riešenie chýb a potvrdenie
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optimalizácia pre komplexné, rotačné alebo viacstránkové tabuľky
- Prepracovanie obrázkov na deskew alebo crop
- Použitie vysoko rozlíšených skenov alebo fotografií
- Pre viacstránkové PDF, pridajte každú stránku ako samostatný vstup
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Krok 8: Kompletný príklad
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Použitie prípadov a aplikácií
Finančná a vedecká správa
Vyberte tabuľky z finančných vyhlásení, výsledkov laboratória alebo výskumných dokumentov pre okamžitú analýzu v programe Excel.
Prieskum a tvarovanie spracovania
Digitalizujte tabuľky zo skenovaných formulárov, kontrolných zoznamov alebo cenzúrnych záznamov.
Automatizácia pracovného toku
Skladujte štruktúrované tabuľkové údaje priamo do vašich obchodných aplikácií, BI nástrojov alebo databáz.
Spoločné výzvy a riešenia
Výzva 1: Zlá kvalita alebo komplexné tabuľky
Riešenie: Použite obrázky s vysokým rozlíšením a testujte na vzorkových súboroch.
Výzva 2: Otočené alebo zvrátené tabuľky
Riešenie: Odstrániť obrázky pred spracovaním; používať DetectAreasMode.TABLE.
Výzva 3: Viacstránkové správy
Riešenie: Pridajte každú stránku ako samostatný vstup na spracovanie batchov.
Preskúmanie výkonnosti
- Batch proces pre rýchlosť
- Používajte kvalitné skenovanie / fotografie
- Dostupnosť objektov OCR po veľkých pretekoch
Najlepšie postupy
- Potvrdenie výstupu pred integráciou
- Nastavenie rozpoznávania tabuľky podľa potreby
- Zálohovanie originálnych a digitalizovaných údajov
- Testovanie s reálnymi vzorkami pred implementáciou
Pokročilé scenáre
Scenár 1: Multi-jazyčná tabuľka extrakcia
settings.Language = Language.German;
Scenár 2: Vývoz na JSON pre dátové potrubia
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Záver
ASPOSE.OCR Tabuľka na text pre .NET premieňa obrázky a skenovanie na vykonateľné, štruktúrované tabuľkové údaje – pripravené na analýzu, hlásenie a automatizáciu.
Pozrite si viac tabuliek identifikácie kódu vzorky v Aspose.OCR pre .NET API referencie .