Kaip ištraukti tekstą iš skanintų PDF failų .NET naudojant Aspose.OCR
Skandinti PDF dažnai yra sudėtinga dirbti su, nes jie iš esmės yra tik teksto vaizdai. Konvertuojant šiuos vaizdus į paieškos, redaguojamus tekstinius dokumentus atveria galimybes dokumentų valdymui ir turinio prieinamumui. Aspose.OCR .NET , galite konvertuoti skandintus PDF į visiškai ieškomą dokumentą, išlaikydami originalias nuotraukas.
Kodėl OCR (Optical Character Recognition) svarbu skenuojamiems PDF failams
Duomenų ekstrakcija- OCR leidžia konvertuoti skenuojamą tekstą į mašiną skaityti duomenis, kuriuos galima redaguoti ir indeksuoti.
• Paieškos galimybės *:- Konvertuojant nuskaitytus PDF failus į paieškos dokumentus, galite greitai rasti atitinkamą informaciją be rankinio paieška per puslapius.
Pagerintas našumas:- Taupykite laiką automatizuojant skanintų dokumentų konvertavimą į redaguojamus formatus, tokius kaip Word arba Excel.
Reikalavimai: Įdiegti skanytą PDF teksto ekstrakciją
Prieš pradėdami ištraukti tekstą iš skanintų PDF, įsitikinkite, kad šie žingsniai yra baigtas:
** Įdiegti Aspose.OCR už .NET** :- Pridėti Aspose.OCR į savo projektą naudojant NuGet:
dotnet add package Aspose.OCR
** Gaukite išmatuotą licenciją** :- Įveskite savo matuotą licenciją, kad atvertumėte visas Aspose.OCR bibliotekos funkcijas naudojant
SetMeteredKey()
.Pasiruoškite savo skanytus PDF failus :- Įsitikinkite, kad jūsų iššifruoti PDF yra aukštos kokybės. geresnė kokybė rezultatų tiksliau OCR.
Žingsnis po žingsnio vadovas: teksto šalinimas iš skanintų PDF
1 žingsnis: įdiegti reikiamą biblioteką
Pradėkite įdiegti Aspose.OCR .NET į savo projektą. galite tai padaryti tiesiogiai iš NuGet.
dotnet add package Aspose.OCR
2 žingsnis: Įdiegti savo licencijos raktus
Prieš pradėdami dirbti, konfigūruokite Aspose.OCR licenciją, kad atvertumėte visas funkcijas.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
3 žingsnis: Atsisiųskite Skanytą PDF į OCR įvesties objektą
Jums reikės įkelti nuskaityto PDF į OcrInput
Objektas. Aspose.OCR palaiko PDF kelių puslapių skenavimą.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
4 žingsnis: Skanytą PDF apdorojimas naudojant OCR variklį
Kai įkeliamas PDF, perduokite jį į Aspose OCR variklį atpažinimo tikslais.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
5 žingsnis: ištrinkite pripažintą tekstą arba jį išsaugokite
Kai OCR variklis apdoroja PDF, galite tiesiogiai išleisti pripažintą tekstą arba jį išsaugoti į failą.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
6 žingsnis: išbandyti ir optimizuoti OCR rezultatus
Po teksto ištraukimo, išbandykite išeitį tikslumui. jei reikia, galite pakreipti OCR nustatymus, kad pagerintumėte rezultatus skirtingoms dokumentų struktūroms.
Bendros problemos ir fiksacijos
Sunkus OCR tikslumas
- Išsprendimas : Įsitikinkite, kad skenuojamas PDF kokybė yra aukšta. Naudokite aukštos rezoliucijos skenus, siekiant pagerinti atpažinimo tikslumą.
Nepatvirtinti fontai
- Išsprendimas : suteikti teisingą kalbos nustatymą OCR galimybėmis, siekiant pagerinti ne lotynų simbolių pripažinimą.
3 Lėtas rezultatas
- Išsprendimas : Pjaustykite PDF į mažesnius gabalus arba puslapius, kad būtų galima greičiau apdoroti, ypač dideliems dokumentams.