Kā izņemt tabulas un tabulāro datus no attēliem ar Aspose.OCR
Tabulu ekstrakcija no attēliem, veidlapām vai skenētiem ziņojumiem ir izaicinoša – manuālais retipings ir lēns un kļūdainošs. Aspose.OCR Tabula uz tekstu .NET automātiski iegūst un strukturē tabulas datus no fotogrāfijām un fotogrāfiem.
Reālā pasaules problēma
Finanšu pārskati, aptaujas veidlapas un zinātniskie rezultāti bieži tiek ieslēgti skenētajās tabulās vai attēlos. manuāli atjaunojot šos datus, tiek tērēti stundu un riski, kas rada kļūdas.
Risinājumu pārskats
Aspose.OCR for .NET var precīzi atklāt, izrakstīt un konvertēt tabulas no attēliem vai skenētiem PDF formātos, kas ir automātiski lasāms - perfekti Excel, ziņošanas vai darba plūsmas automatizācijai.
Prerequisites
- Visual Studio 2019 vai vēlāk
- .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
- Aspose.OCR par .NET no NuGet
- C# zināšanas
PM> Install-Package Aspose.OCR
Step-by-step īstenošana
1. solis: Uzstādīt un konfigurēt Aspose.OCR
using Aspose.OCR;
2. solis: skenēt vai fotografēt attēlus, kas satur tabulas
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
3. solis: Iestatīt tabulas atpazīšanas iestatījumus
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
4. solis: Izveidojiet galda ekstrakcijas procesu
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5. solis: eksporta tabulas dati
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
6. solis: pievienojiet kļūdu apstrādi un validāciju
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7. solis: Optimizējiet kompleksas, rotētas vai daudzu lapu tabulas
- Preprocess attēli uz deskew vai crop
- Izmantojiet augstas izšķirtspējas skenēšanu vai fotogrāfijas
- Vairākas lapas PDF, pievienojiet katru lapu kā atsevišķu ievadījumu
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
8. solis: pilns piemērs
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Izmantojiet gadījumus un pieteikumus
Finanšu un zinātnisko ziņošanu
Izvadīt tabulas no finanšu pārskatiem, laboratorijas rezultātiem vai pētījumu dokumentiem tūlītējai analīzei Excel.
Aptauja un formas apstrāde
Digitalizējiet tabulas no skenētiem veidlapām, pārbaudes saraksta vai cenzūras ierakstiem.
Darba plūsmas automatizācija
Saglabā strukturētus tabulas datus tieši jūsu biznesa lietojumprogrammās, BI rīkos vai datu bāzēs.
Kopīgi izaicinājumi un risinājumi
1. izaicinājums: slikta kvalitāte vai sarežģītas tabulas
Rīze: Izmantojiet augstas kvalitātes attēlus un pārbaudiet paraugu komplektos.
2. izaicinājums: apgrieztas vai izkropļotas tabulas
Rīkojums: Izveidojiet attēlus pirms apstrādes; izmantojiet DetectAreasMode.TABLE.
Izteikums 3: Daudzu lapu ziņojumi
Rīze: Pievienojiet katru lapu kā atsevišķu ievadījumu batch apstrādei.
Darbības apsvērumi
- Batch process ātrumam
- Izmanto augstas kvalitātes skenēšanas/fotogrāfijas
- OCR objektu pieejamība pēc lieliem braucieniem
Labākās prakses
- Pārbaudiet produkciju pirms integrācijas
- Tune tabulas atpazīšanas iestatījumi, kā nepieciešams
- Original un digitalizētie dati
- Pārbaudiet ar reāliem paraugiem pirms uzstādīšanas
Augstākie scenāriji
Scenārija 1: Daudzvalodu galda ekstrakcija
settings.Language = Language.German;
2. scenārijs: Datu cauruļvadu eksports uz JSON
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Conclusion
Aspose.OCR Table to Text for .NET pārvērš attēlus un skanējumus darbināmiem, strukturētiem tabulas datiem – gatavi analīzei, ziņošanai un automatizācijai.
Skatīt vairāk tabulas atpazīšanas kodu paraugus Aspose.OCR par .NET API atsauci .