Kaip ištraukti tekstą iš skanintų PDF failų .NET naudojant Aspose.OCR

Skandinti PDF dažnai yra sudėtinga dirbti su, nes jie iš esmės yra tik teksto vaizdai. Konvertuojant šiuos vaizdus į paieškos, redaguojamus tekstinius dokumentus atveria galimybes dokumentų valdymui ir turinio prieinamumui. Aspose.OCR .NET , galite konvertuoti skandintus PDF į visiškai ieškomą dokumentą, išlaikydami originalias nuotraukas.

Kodėl OCR (Optical Character Recognition) svarbu skenuojamiems PDF failams

Duomenų ekstrakcija:- OCR leidžia konvertuoti skenuojamą tekstą į mašiną skaityti duomenis, kuriuos galima redaguoti ir indeksuoti.
Paieškos galimybės:- Konvertuojant nuskaitytus PDF failus į paieškos dokumentus, galite greitai rasti atitinkamą informaciją be rankinio paieška per puslapius.
Pagerintas našumas:- Taupykite laiką automatizuojant skanintų dokumentų konvertavimą į redaguojamus formatus, tokius kaip Word arba Excel.

Reikalavimai: Įdiegti skanytą PDF teksto ekstrakciją

Prieš pradėdami ištraukti tekstą iš skanintų PDF, įsitikinkite, kad šie žingsniai yra baigtas:

Įdiegti Aspose.OCR už .NET:- Pridėti Aspose.OCR į savo projektą naudojant NuGet: dotnet add package Aspose.OCR
Gaukite išmatuotą licenciją:- Įveskite savo matuotą licenciją, kad atvertumėte visas Aspose.OCR bibliotekos funkcijas naudojant SetMeteredKey().
Pasiruoškite savo skanytus PDF failus:- Įsitikinkite, kad jūsų iššifruoti PDF yra aukštos kokybės. geresnė kokybė rezultatų tiksliau OCR.

Žingsnis po žingsnio vadovas: teksto šalinimas iš skanintų PDF

1 žingsnis: įdiegti reikiamą biblioteką

Pradėkite įdiegti Aspose.OCR .NET į savo projektą. galite tai padaryti tiesiogiai iš NuGet.

dotnet add package Aspose.OCR

2 žingsnis: Įdiegti savo licencijos raktus

Prieš pradėdami dirbti, konfigūruokite Aspose.OCR licenciją, kad atvertumėte visas funkcijas.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

3 žingsnis: Atsisiųskite Skanytą PDF į OCR įvesties objektą

Jums reikės įkrauti skenavimą target="_blank" rel="noopener"> PDF

Į į OcrInput Objektas. Aspose.OCR palaiko PDF kelių puslapių skenavimą.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

4 žingsnis: Skanytą PDF apdorojimas naudojant OCR variklį

Kai įkeliamas PDF, perduokite jį į Aspose OCR variklį atpažinimo tikslais.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

5 žingsnis: ištrinkite pripažintą tekstą arba jį išsaugokite

Kai OCR variklis apdoroja PDF, galite tiesiogiai išleisti pripažintą tekstą arba jį išsaugoti į failą.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

6 žingsnis: išbandyti ir optimizuoti OCR rezultatus

Po teksto ištraukimo, išbandykite išeitį tikslumui. jei reikia, galite pakreipti OCR nustatymus, kad pagerintumėte rezultatus skirtingoms dokumentų struktūroms.

Bendros problemos ir fiksacijos

Sunkus OCR tikslumas

Išsprendimas : Įsitikinkite, kad skenuojamas PDF kokybė yra aukšta. Naudokite aukštos rezoliucijos skenus, siekiant pagerinti atpažinimo tikslumą.

Nepatvirtinti fontai

Išsprendimas : suteikti teisingą kalbos nustatymą OCR galimybėmis, siekiant pagerinti ne lotynų simbolių pripažinimą.

3 Lėtas rezultatas

Išsprendimas : Pjaustykite PDF į mažesnius gabalus arba puslapius, kad būtų galima greičiau apdoroti, ypač dideliems dokumentams.