Kaip konvertuoti skanytus PDF failus į paieškos tekstinius dokumentus .NET
Skanytos PDF medžiagos paprastai nėra redaguojamos, nuotraukomis pagrįstos failus, todėl sunku iš jų ištraukti tekstą. tačiau Aspose.OCR .NET , galite greitai paversti šiuos skanytus PDF dokumentus reikiamais, paieškos tekstiniais dokumentais, kurie daro duomenų perėmimą ir dokumentų valdymą daug lengviau.
Kodėl turėtumėte konvertuoti nuskaitytus PDF failus į paieškos tekstą?
Padidėjęs prieinamumas:- Skanytus PDF failus galima konvertuoti į tekstą, kurį galima ieškoti ir redaguoti, o tai leidžia geresnį turinio prieinamumą.
• Duomenų organizavimas:- Konvertuojant, tekstas gali būti organizuotas, manipuliuojamas ir pakartotinai naudojamas įvairiuose formatuose, pavyzdžiui, „Word“, „Excel“ arba paprastame tekste.
Turinio išsaugojimas:- Aspose.OCR užtikrina, kad originalūs vaizdai ir išdėstymas būtų išsaugoti, o tekstas yra ištrauktas, suteikiant jums tiek turinį, tiek kontekstą.
Reikalavimai: Pasiruošimas skenuoti PDF konvertavimą
Prieš pradėdami tekstą iš skanintų PDF, įsitikinkite, kad:
** Įdiegti Aspose.OCR už .NET** :- Įdiegti reikiamą biblioteką naudojant NuGet su įsakymu:
dotnet add package Aspose.OCR
Licencijos konfigūracija:- Gaukite ir konfigūruokite matuotą licenciją naudojant
SetMeteredKey()
Metodas atverti visas funkcijas.Pasiruoškite savo skanytus PDF failus :- Įsitikinkite, kad jūsų skenuojami PDF dokumentai yra geros kokybės (300 dpi arba didesnės) geriausiems OCR rezultatams.
Žingsnis po žingsnio vadovas, kaip konvertuoti skanytus PDF į tekstą
1 žingsnis: įdiegti savo licenciją
Pradėkite nuo jūsų Aspose.OCR licencijos konfigūracijos, kad galėtumėte užtikrinti visišką prieigą prie funkcijų.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
2 žingsnis: Atsisiųskite Skanytą PDF į OCR įvesties objektą
Atsisiųskite skanytą PDF failą į OCR variklį teksto atpažinimo tikslais.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
3 žingsnis: nustatyti OCR variklį atpažinimo
Įdėkite OCR variklį, kad optimizuotumėte teksto ekstrakciją iš nuskaityto PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
4 žingsnis: ištraukti ir išsaugoti pripažintą tekstą
Skanytą PDF apdorokite, kad tekstas būtų ištrauktas ir išvestas į failą.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
5 žingsnis: išbandyti pripažintą tekstą
Pasibaigus ekstrakcijai, patikrinkite teksto atpažinimo tikslumą patikrinant išleidimo failą arba parodydami jį konsole.
Bendros problemos ir fiksacijos
Sunkus OCR tikslumas
- Išsprendimas : Įsitikinkite, kad skenuojamas PDF kokybė yra didelė (300 dpi arba daugiau), siekiant geresnio atpažinimo tikslumo.
Neteisingas kalbos pripažinimas
- **Išsprendimas ** : aiškiai nurodykite kalbos nustatymą RecognitionSettings geresnių rezultatų, ypač ne lotynų simboliams.
Lėtas efektyvumas dideliems failams
- Išsprendimas : apdoroti didelius PDF failus gabalais arba optimizuoti atminties naudojimą, kad paspartėtų OCR procesas.