Kaip konvertuoti skanytus PDF failus į paieškos tekstinius dokumentus .NET

Skanytos PDF medžiagos paprastai nėra redaguojamos, nuotraukomis pagrįstos failus, todėl sunku iš jų ištraukti tekstą. tačiau Aspose.OCR .NET , galite greitai paversti šiuos skanytus PDF dokumentus reikiamais, paieškos tekstiniais dokumentais, kurie daro duomenų perėmimą ir dokumentų valdymą daug lengviau.

Kodėl turėtumėte konvertuoti nuskaitytus PDF failus į paieškos tekstą?

Padidėjęs prieinamumas:- Skanytus PDF failus galima konvertuoti į tekstą, kurį galima ieškoti ir redaguoti, o tai leidžia geresnį turinio prieinamumą.
Duomenų organizavimas:- Konvertuojant, tekstas gali būti organizuotas, manipuliuojamas ir pakartotinai naudojamas įvairiuose formatuose, pavyzdžiui, „Word“, „Excel“ arba paprastame tekste.
Turinio išsaugojimas:- Aspose.OCR užtikrina, kad originalūs vaizdai ir išdėstymas būtų išsaugoti, o tekstas yra ištrauktas, suteikiant jums tiek turinį, tiek kontekstą.

Reikalavimai: Pasiruošimas skenuoti PDF konvertavimą

Prieš pradėdami tekstą iš skanintų PDF, įsitikinkite, kad:

Įdiegti Aspose.OCR už .NET:- Įdiegti reikiamą biblioteką naudojant NuGet su įsakymu: dotnet add package Aspose.OCR
Licencijos konfigūracija:- Gaukite ir konfigūruokite matuotą licenciją naudojant SetMeteredKey() Metodas atverti visas funkcijas.
Pasiruoškite savo skanytus PDF failus:- Įsitikinkite, kad jūsų skenuojami PDF dokumentai yra geros kokybės (300 dpi arba didesnės) geriausiems OCR rezultatams.

Žingsnis po žingsnio vadovas, kaip konvertuoti skanytus PDF į tekstą

1 žingsnis: įdiegti savo licenciją

Pradėkite nuo jūsų Aspose.OCR licencijos konfigūracijos, kad galėtumėte užtikrinti visišką prieigą prie funkcijų.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

2 žingsnis: Atsisiųskite Skanytą PDF į OCR įvesties objektą

Atsisiųskite skenavimą target="_blank" rel="noopener"> PDF

failą į OCR variklį teksto atpažinimo.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

3 žingsnis: nustatyti OCR variklį atpažinimo

Įdėkite OCR variklį, kad optimizuotumėte teksto ekstrakciją iš nuskaityto PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

4 žingsnis: ištraukti ir išsaugoti pripažintą tekstą

Skanytą PDF apdorokite, kad tekstas būtų ištrauktas ir išvestas į failą.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

5 žingsnis: išbandyti pripažintą tekstą

Pasibaigus ekstrakcijai, patikrinkite teksto atpažinimo tikslumą patikrinant išleidimo failą arba parodydami jį konsole.

Bendros problemos ir fiksacijos

Sunkus OCR tikslumas

Išsprendimas : Įsitikinkite, kad skenuojamas PDF kokybė yra didelė (300 dpi arba daugiau), siekiant geresnio atpažinimo tikslumo.

Neteisingas kalbos pripažinimas

**Išsprendimas ** : aiškiai nurodykite kalbos nustatymą RecognitionSettings geresnių rezultatų, ypač ne lotynų simboliams.

Lėtas efektyvumas dideliems failams

Išsprendimas : apdoroti didelius PDF failus gabalais arba optimizuoti atminties naudojimą, kad paspartėtų OCR procesas.