Ako extrahovať štruktúrované údaje z tabuliek a tvarov v obrázkoch
Odstránenie údajov z skenovaných tabuliek alebo vyplnených formulárov je nevyhnutné pre obchodnú automatizáciu, správu a dodržiavanie požiadaviek. ASPOSE.OCR Tabuľka na text pre .NET zjednodušuje tento proces, presne detekuje bunkovú a poľnú štruktúru a vyváža sa do upraviteľných formátov.
Reálny svetový problém
Podniky často prijímajú faktúry, správy alebo formuláre ako obrázky alebo skenovanie. Manuálny vstup tabuľkových údajov alebo poľa formulára je pomalý, chybový a drahý v rozsahu.
Prehľad riešenia
Pomocou tabuľky na text pre .NET môžete štruktúrované údaje – vrátane riadkov, stĺpcov a polných hodnôt – extrahovať priamo z obrázkov. Výsledky môžu byť exportované do programu Excel, JSON alebo integrované s databázami a automatizačnými platformami.
Predpoklady
- Visual Studio 2019 alebo neskôr
- .NET 6.0 alebo novší (alebo .Net Framework 4.6.2+)
- Aspose.OCR pre .NET od NuGet
- Základné C# zručnosti
PM> Install-Package Aspose.OCR
krok za krokom implementácia
Krok 1: Inštalácia a konfigurácia Aspose.OCR
using Aspose.OCR;
Krok 2: Pripravte tabuľku alebo tvar obrázkov
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Krok 3: Nastavenie rozpoznávacích nastavení pre tabuľky / formuláre
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Krok 4: Odstráňte tabuľku alebo formulár údajov
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Štruktúrovaný vývoz
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Krok 6: Riešenie chýb a potvrdenie výsledkov
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optimalizácia pre variácie tabuľky/formy
- Testovanie vzoriek s rôznymi hranicami, písmenami alebo polovými umiestnením
- Tune predbežné nastavenia pre najlepšie detekcie
Krok 8: Automatická extrakcia batchov
Spracovať všetky relevantné obrázky v priečinku:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Krok 9: Kompletný príklad
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Použitie prípadov a aplikácií
Automatizácia faktúry a správy
Výpis finančných údajov na účtovníctvo alebo analýzu.
Formulár prieskumu a registrácie
Pull štruktúrované odpovede pre systémy CRM, ERP alebo BI.
Dodržiavanie a audit
Automatická extrakcia a validácia údajov z predložených formulárov alebo tabuliek.
Spoločné výzvy a riešenia
Výzva 1: Neregulárne tabuľkové hranice alebo rozloženia
Riešenie: Použite predbežné spracovanie a vzorové tunovanie na zlepšenie detekcie.
Výzva 2: Zmiešaný obsah (Text a tabuľky)
Riešenie: Spustiť s AUTO alebo samostatne podľa typu obrazu pre najlepšie výsledky.
Výzva 3: Komplexné formy s mnohými pole
Riešenie: Testovanie a rozpoznávanie tweak pre formy s vysokou hustotou.
Preskúmanie výkonnosti
- Tabuľkové rozpoznávanie je CPU intenzívnejšie; monitorovanie batch práce
- Validácia výstupov pre kritické pracovné toky
- Batch export pre integráciu s inými nástrojmi
Najlepšie postupy
- Validácia štruktúrovaných údajov na vzorkách pred skalovaním
- Zabezpečte a archivujte zdrojové obrázky a extrahované výstupy
- Aktualizovať Aspose.OCR pravidelne pre zlepšenie presnosti
- Tune nastavenia pre nové rozloženia dokumentov
Pokročilé scenáre
Scenár 1: Export do databázy alebo BI nástrojov
// Use JSON or Excel export for integration with data pipelines
Scenár 2: V reálnom čase extrakcia v webových aplikáciách
// Integrate extraction logic into ASP.NET or workflow API
Záver
ASPOSE.OCR Tabuľka na text pre .NET vám umožňuje automatizovať štruktúrovanú extrakciu údajov z obrázkov a formulárov a podporovať všetko od podnikovej automatiky až po dodržiavanie a analýzu.
Pre pokročilé funkcie výťažkovej tabuľky navštívte Aspose.OCR pre .NET API referencie .