Kā izņemt strukturētus datus no tabulām un veidlapām attēlos
Datu ekstrakcija no skenētiem tabulām vai aizpildītajām veidlapām ir būtiski biznesa automatizācijai, ziņošanai un atbilstībai. Aspose.OCR Table to Text for .NET vienkāršo šo procesu, precīzi atklājot šūnu un lauka struktūru un eksportējot uz rediģējamiem formātiem.
Reālā pasaules problēma
Uzņēmumi bieži saņem rēķinus, ziņojumus vai veidlapas, piemēram, attēlus vai skanējumus. Tabulāro datu vai formu lauku manuālais ievads ir lēns, kļūdainošs un dārgs.
Risinājumu pārskats
Ar tabulu uz tekstu .NET, jūs varat izrakstīt strukturētus datus – ieskaitot rindas, kolonnas un lauka vērtības – tieši no attēliem.
Prerequisites
- Visual Studio 2019 vai vēlāk
- .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
- Aspose.OCR par .NET no NuGet
- C# prasmes
PM> Install-Package Aspose.OCR
Step-by-step īstenošana
1. solis: Uzstādīt un konfigurēt Aspose.OCR
using Aspose.OCR;
2. solis: sagatavojiet tabulu vai veidlapas attēlus
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
3. solis: Iestatīt atpazīšanas iestatījumus tabulām / veidlapām
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
4. solis: Izrakstīt tabulu vai veidlapas datus
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5. solis: Struktūrēts eksports
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
6. solis: pārvaldīt kļūdas un apstiprināt rezultātus
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7. solis: Optimizēt tabulas/formas izmaiņas
- Tests uz paraugiem ar dažādiem robežām, burtiem vai lauka plakātiem
- Tune priekšapstrādes iestatījumi labākai atklāšanai
8. solis: automātiskā batch ekstrakcija
Pārstrādā visus attiecīgos attēlus mapē:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
9. solis: pilns piemērs
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Izmantojiet gadījumus un pieteikumus
Rēķinu un ziņojumu automatizācija
Iegūt finanšu datus grāmatvedības vai analīzes vajadzībām.
Aptauja un reģistrācijas veidlapas
Pull strukturētas atbildes CRM, ERP vai BI sistēmām.
atbilstība un revīzija
Automātiska datu iegūšana un validācija no iesniegtajiem veidlapām vai tabulām.
Kopīgi izaicinājumi un risinājumi
1. izaicinājums: Neregulāras galda robežas vai izkārtojumi
Lēmums: Izmantojiet priekšapstrādi un paraugu tonēšanu, lai uzlabotu detekciju.
2. izaicinājums: sajaukts saturs (teksts un tabulas)
Rīze: Run ar AUTO vai atsevišķi pēc attēla veida, lai iegūtu labākos rezultātus.
3. izaicinājums: sarežģītas formas ar daudzām laukiem
Rīkojums: Testēšana un tweak atpazīšana augsta blīvuma veidlapām.
Darbības apsvērumi
- Tērauda atpazīšana ir CPU intensīvāka; monitoring batch darbs
- Validē rezultātus kritiskajiem darba plūsmām
- Batch eksports integrācijai ar citiem instrumentiem
Labākās prakses
- Validējiet strukturētus datus uz paraugiem pirms skalēšanas
- Aizsargāt un arhivēt gan avotu attēlus, gan iegūtos rezultātus
- Aspose.OCR regulāri atjaunina precizitātes uzlabošanai
- Tune iestatījumi jauniem dokumentu izkārtojumiem
Augstākie scenāriji
1. scenārijs: Eksportēšana uz datubāzi vai BI rīkiem
// Use JSON or Excel export for integration with data pipelines
Scenārija 2: Reālā laika ekstrakcija tīmekļa lietojumprogrammās
// Integrate extraction logic into ASP.NET or workflow API
Conclusion
Aspose.OCR Table to Text for .NET ļauj automatizēt strukturētu datu ekstrakciju no attēliem un veidlapām, atbalstot visu no biznesa automācijas līdz atbilstībai un analīzei.
Lai iegūtu uzlabotas tabulas ekstrakcijas funkcijas, apmeklējiet Aspose.OCR par .NET API atsauci .