Kaip pašalinti lentelės duomenis iš nuotraukų su Aspose.OCR
Su Aspose.OCR lentelė į tekstą .NET, galite automatiškai ištraukti struktūrizuotų lentelių duomenis iš vaizdų – sutaupyti laiko, sumažinti klaidas, ir leisti nesąmoningą integraciją su duomenų bazes, Excel, ar ataskaitų įrankius.
Realaus pasaulio problemos
Verslas dažnai gauna lenteles sąskaitose, ataskaitose ar formose kaip nuotraukos ar skenavimas. rankiniu būdu perkelti šiuos duomenis į skirtukus ar analizės platformas yra neveiksmingas ir klaidų priežastis, ypač dideliems tūriams ar sudėtingoms lentelėms.
Sprendimo apžvalga
ASPOSE.OCR Table to Text for .NET automatiškai atpažįsta lenteles ir išgauna duomenis iš vaizdų, tiksliai identifikuoja ląstelių struktūrą ir turinį. Tai leidžia transformuoti skanytus ar fotografuotus lentelius į struktūrizuotus, paieškos ir redaguojamus formatus su minimaliu kodu.
Prerequisites
Prieš pradedant, jums reikės:
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
- Pagrindinės C# žinios
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR
Pridėti Aspose.OCR paketą ir įtraukti reikiamus pavadinimų erdves:
using Aspose.OCR;
2 žingsnis: paruoškite lentelės vaizdo įrašus
Įveskite vieną ar daugiau lentelės vaizdų į savo įvedimą. bandymo ekstrakcijai naudokite kelis failus.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
3 žingsnis: nustatyti lentelės atpažinimo nustatymus
Leidžia lentelės aptikimo režimą, kad struktūra būtų tiksliai atpažįstama.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
4 žingsnis: paleiskite lentelės atpažinimo procesą
Atpažinkite lenteles su konfigūruotais parametrais:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
5 žingsnis: eksportuoti ir naudoti lentelės duomenis
Išsaugoti arba apdoroti pripažintus lentelės duomenis. galite eksportuoti į tekstą, Excel, JSON ar kitus formatus.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
6 žingsnis: pridėti klaidų tvarkymą
Pridėkite išimčių tvarkymą, kad sukurtumėte tvirtus sprendimus.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
7 žingsnis: optimizuokite sudėtingas lenteles
- Naudokite aukštos raiškos skenus / nuotraukas tiksliam struktūros aptikimui
- Testavimas su įvairiais stalų išdėstymais (sujungtos ląstelės, daugialypės eilutės viršeliai, sienos)
- Tune pripažinimo nustatymai, jei reikia
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
8 žingsnis: pilnas darbo pavyzdys
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Naudokite atvejus ir paraiškas
Finansinės ataskaitos ir sąskaitos
Transakcinės lentelės automatiškai ištraukiamos iš vaizdų į „Excel“ arba duomenų bazės sistemas.
Tyrimai ir analizė
Skaitmenizuokite lenteles iš skenuojamų publikacijų ar apklausos formų duomenų analizei.
Automatinė duomenų migracija
Migracijos paveldėjimo dokumentai arba skenuojami popieriniai įrašai į šiuolaikinius struktūrizuotus formatus.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: Blurry arba kompleksiniai lentelės vaizdai
Išsprendimas: Naudokite aiškesnius vaizdus arba eksperimentą su išankstiniu apdorojimu, kad pagerintumėte struktūros atpažinimą.
Iššūkis 2: nestandartiniai stalų rinkinys
Išsprendimas: Išbandykite ir pritaikykite sudėtingų išdėstymų ar neribotų lentelių nustatymus.
Iššūkis 3: Dideli batai arba mišri vaizdo tipai
Išsprendimas: Naudokite pakuotės apdorojimą ir katalogų skenavimą, kad automatizuotumėte ekstrakciją iš daugelio failų.
Veiksmingumo apžvalgos
- Naudokite gerai apšviestus, aukšto lygio vaizdus
- Batch procesas efektyvumui
- OCR objektai po naudojimo
Geriausios praktikos
- Visada patvirtinkite eksportuotus lentelės duomenis prieš tolesnį apdorojimą
- Preprocesiniai vaizdai optimaliam struktūros aptikimui
- Saugus ir atsarginis originalus skenavimas / nuotraukos
- Naudokite tinkamą eksporto formatą savo darbo srautui (CSV, XLSX, JSON)
Išplėstiniai scenarijai
1 scenarijus: mišriosios kalbos lentelės ekstrakcija
settings.Language = Language.Chinese;
2 scenarijus: derinant lentelę ir teksto ekstrakciją
settings.DetectAreasMode = DetectAreasMode.COMBINE;
Conclusion
Aspose.OCR lentelė į tekstą .NET paverčia vaizdo lenteles struktūrizuotais, redaguojamais duomenimis – nereikalaujama rankinio įvedimo. pagreitinti finansinę ataskaitą, analitiką ir skaitmeninį archyvavimą su tiksliu, automatiniu lentelės ekstrakcija.
Norėdami gauti daugiau pavyzdžių ir techninių detalių, apsilankykite ASPOSE.OCR už .NET API nuorodą .