Kaip pašalinti lenteles ir lentelių duomenis iš nuotraukų su Aspose.OCR
Išimti lenteles iš vaizdų, formų ar skenuojamų ataskaitų yra sudėtinga – rankiniu būdu retyping yra lėtas ir klaidų priežastis. Aspose.OCR Table to Text for .NET automatuoja išimimą ir struktūrizavimą lentelių duomenis iš nuotraukų ir nuotraukų.
Realaus pasaulio problemos
Finansinės ataskaitos, apklausos formos ir moksliniai rezultatai dažnai užfiksuojami skenuojamose lentelėse ar nuotraukose. rankiniu būdu atkurti šiuos duomenis praranda valandas ir rizika sukelia klaidas.
Sprendimo apžvalga
Aspose.OCR .NET gali tiksliai aptikti, ištraukti ir konvertuoti lenteles iš vaizdų ar skanintų PDF į mašiną skaityti formatus – tobulas Excel, ataskaitų arba darbo srautų automatizavimo.
Prerequisites
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
- Pagrindinės C# žinios
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR
using Aspose.OCR;
2 žingsnis: skenavimas arba nuotraukos, kuriose yra lentelių
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
3 žingsnis: nustatyti lentelės atpažinimo nustatymus
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
4 žingsnis: paleiskite stalų ekstrakcijos procesą
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5 žingsnis: eksporto lentelės duomenys
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
6 žingsnis: pridėti klaidų tvarkymą ir patvirtinimą
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7 žingsnis: optimizuokite kompleksines, apvalias arba daugialypės lenteles
- Preprocesiniai vaizdai į deskew arba crop
- Naudokite aukštos rezoliucijos skenus ar nuotraukas
- Daugelio puslapių PDF, pridėti kiekvieną puslapį kaip atskirą įrašą
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
8 žingsnis: pilnas pavyzdys
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Naudokite atvejus ir paraiškas
Finansinė ir mokslinė ataskaita
Paimkite lenteles iš finansinių ataskaitų, laboratorijų rezultatų ar tyrimų dokumentų „Excel“ analizei.
Apklausos ir formos apdorojimas
Skaitmeninkite lenteles iš skenuojamų formų, patikrinimų sąrašų ar cenzūros įrašų.
Darbo srauto automatizavimas
Sukurkite struktūrizuotus lentelės duomenis tiesiogiai į jūsų verslo programas, BI įrankius ar duomenų bazes.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: prastos kokybės arba sudėtingos lentelės
Išsprendimas: Naudokite aukštos raiškos vaizdus ir bandykite mėginių rinkinį.
2 iššūkis: apvalios arba nukreiptos lentelės
Rozoliucija: Prieš apdorojimą atsisiųskite vaizdus; naudokite DetectAreasMode.TABLE.
Iššūkis 3: daugialypės ataskaitos
Išsprendimas: Įveskite kiekvieną puslapį kaip atskirą indėlį pakuotės apdorojimui.
Veiksmingumo apžvalgos
- Batch procesas greičiui
- Naudokite aukštos kokybės skenavimus / nuotraukas
- OCR objektų naudojimas po didelių lenktynių
Geriausios praktikos
- Išleidimas prieš integraciją
- Tune lentelės atpažinimo nustatymai, kaip reikia
- Išsaugoti originalius ir skaitmeninius duomenis
- Išbandykite realius mėginius prieš paleidžiant
Išplėstiniai scenarijai
1 scenarijus: daugiakalbė stalo ekstrakcija
settings.Language = Language.German;
2 scenarijus: duomenų vamzdžių eksportas į JSON
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Conclusion
ASPOSE.OCR lentelė į tekstą .NET paverčia vaizdus ir skenavimus į veiksmingus, struktūrizuotus lentelės duomenis – paruoštus analizei, ataskaitoms ir automatizavimui.
Žiūrėti daugiau lentelės atpažinimo kodo pavyzdžių ASPOSE.OCR už .NET API nuorodą .