Kaip ištraukti struktūrizuotus duomenis iš lentelių ir formų nuotraukose
Duomenų ištraukimas iš skenuojamų lentelių ar užpildytų formų yra būtinas verslo automatizavimui, ataskaitoms ir atitikčiai. „Aspose.OCR Table to Text for .NET“ supaprastina šį procesą, tiksliai nustato ląstelių ir lauko struktūrą ir eksportuoja į redaguojamus formatus.
Realaus pasaulio problemos
Verslas dažnai gauna sąskaitas, ataskaitas ar formas kaip nuotraukas ar skenavimus. rankiniu būdu įvesti lentelės duomenis ar formos laukus yra lėtas, klaidų grėsmė, ir brangus mastu.
Sprendimo apžvalga
Naudodami .NET lentelę į tekstą, galite iš nuotraukų tiesiogiai ištraukti struktūrizuotus duomenis, įskaitant eilutes, stulpelius ir lauko vertes.
Prerequisites
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
- Pagrindiniai C# įgūdžiai
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR
using Aspose.OCR;
2 žingsnis: paruoškite lentelę arba formos nuotraukas
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
3 žingsnis: nustatyti atpažinimo nustatymus lentoms / formoms
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
4 žingsnis: išimkite lentelę arba formos duomenis
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5 žingsnis: struktūrizuotas eksportas
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
6 žingsnis: Spręsti klaidas ir patvirtinti rezultatus
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7 žingsnis: optimizuokite lentelės ir formos svyravimus
- Testas ant pavyzdžių, turinčių skirtingas sienas, fontus ar lauko vietą
- Tune išankstinio apdorojimo nustatymai geriausiam aptikimui
8 žingsnis: Automatinis batch ekstrakcija
Apdoroti visus atitinkamus vaizdus vienoje aplinkoje:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
9 žingsnis: pilnas pavyzdys
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Naudokite atvejus ir paraiškas
Sąskaitos ir ataskaitų automatizavimas
Finansiniai duomenys gaunami apskaitos ar analizės tikslais.
Tyrimo ir registracijos formos
Struktūrizuotas atsakas į CRM, ERP ar BI sistemas.
Atitikties ir audito
Automatinis duomenų ištraukimas ir patvirtinimas iš pateiktų formų ar lentelių.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: nereguliarios lentelės ribos arba tvarkaraščiai
Išsprendimas: Naudokite išankstinį apdorojimą ir mėginių plovimą, kad pagerintumėte aptikimą.
Iššūkis 2: mišrus turinys (tekstas ir lentelės)
Išsprendimas: Veikia su AUTO arba atskirai pagal vaizdo tipą, kad gautumėte geriausius rezultatus.
Iššūkis 3: Kompleksinės formos su daugybe laukų
Išsprendimas: Aukštos tankio formų testavimo ir tvirto pripažinimo.
Veiksmingumo apžvalgos
- Stalo atpažinimas yra intensyvesnis CPU; stebėti batch darbus
- Kritinių darbo srautų rezultatų patvirtinimas
- Batch eksportas integracijai su kitais įrankiais
Geriausios praktikos
- Įvertinkite struktūrizuotus duomenis ant mėginių prieš skalavimą
- Saugokite ir archyvuokite tiek šaltinio vaizdus, tiek ištrauktus išėjimus
- Reguliariai atnaujinkite Aspose.OCR tikslumo patobulinimui
- Tune nustatymai naujoms dokumentų išdėstymams
Išplėstiniai scenarijai
1 scenarijus: eksportuoti į duomenų bazę arba BI įrankius
// Use JSON or Excel export for integration with data pipelines
2 scenarijus: realaus laiko ekstrakcija žiniatinklio programose
// Integrate extraction logic into ASP.NET or workflow API
Conclusion
Aspose.OCR Table to Text for .NET leidžia automatizuoti struktūrizuotą duomenų ekstrakciją iš vaizdų ir formų, palaikant viską nuo verslo automatizavimo iki atitikties ir analizės.
Išplėstinių stalų ekstrakcijos funkcijų, apsilankykite ASPOSE.OCR už .NET API nuorodą .