Kaip konvertuoti skanytus PDF failus į paieškos tekstinius dokumentus .NET
Skandinti PDF dažnai yra sudėtinga dirbti su, nes jie iš esmės yra tik teksto vaizdai. Konvertuojant šiuos vaizdus į paieškos, redaguojamus tekstinius dokumentus atveria galimybes dokumentų valdymui ir turinio prieinamumui. Aspose.OCR .NET , galite konvertuoti skandintus PDF į visiškai ieškomą dokumentą, išlaikydami originalias nuotraukas.
Kodėl konvertuojami skanūs PDF dokumentai į paieškos tekstinius dokumentus?
• prieinamumas *:- Skanytą turinį galima ieškoti, todėl lengva rasti informaciją be rankinio skaitymo per dokumentą.
Skaitmeninis turinys:- Kai konvertuojamas į tekstą, turinys gali būti redaguojamas, atnaujinamas arba pakartotinai naudojamas kitais formatais.
• Efektyvumas –- Taupykite laiką automatizuojant skanų PDF konvertavimo procesą į visiškai prieinamus tekstinius dokumentus.
Reikalavimai: Įdiegti skanytą PDF teksto ekstrakciją
Prieš išgaunant tekstą iš skanintų PDF, laikykitės šių žingsnių, kad įsitikintumėte, jog viskas yra nustatyta:
** Įdiegti Aspose.OCR už .NET** :- Pridėti Aspose.OCR į savo projektą naudojant NuGet:
dotnet add package Aspose.OCR
** Gaukite savo licenciją** :- Įdiegti savo matuotą licenciją naudojant
SetMeteredKey()
išjungti visą Aspose.OCR funkcionalumą.Pasiruoškite savo skanytą PDF :- Įsitikinkite, kad nuskaityti PDF dokumentai yra geros kokybės, siekiant geresnio atpažinimo tikslumo.
Žingsnis po žingsnio vadovas: konvertuojant skanytus PDF į paieškos tekstą
1 žingsnis: įdiegti savo licenciją
Pradėkite konfigūruodami savo „Aspose.OCR“ licenciją, kad atvertumėte visas funkcijas.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
2 žingsnis: Atsisiųskite Skanytą PDF į OCR įvesties objektą
Toliau atsisiųskite skanytą PDF į OcrInput objektą, kad pradėtumėte OCR procesą.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
3 žingsnis: nustatyti OCR variklį atpažinimo
Įdėkite OCR variklį ir konfigūruokite bet kokius atpažinimo nustatymus, tokius kaip kalba ir tikslumas.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
4 žingsnis: ištraukti ir išvesti pripažintą tekstą
Dabar ištraukite tekstą iš nuskaityto PDF naudojant OCR variklį.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
5 žingsnis: Patikrinkite paieškos PDF
Įsitikinkite, kad ištrauktas tekstas yra paieškos ir redaguojamas bandydamas išleidimą PDF žiūrovas ar redaktorius.
Bendros problemos ir fiksacijos
Mažas OCR tikslumas
- Išsprendimas : Įsitikinkite, kad skenuojamas PDF yra aukštos kokybės (mažiausiai 300 DPI), siekiant pagerinti atpažinimo rezultatus.
Nepatvirtinti fontai
- Išsprendimas : užtikrinkite, kad OCR nustatymuose būtų nustatyta teisinga kalba, siekiant tiksliai atpažinti tekstą, ypač ne lotynų simboliams.
Lėtas rezultatas dideliems PDF failams
- Išsprendimas : Dideliems PDF failams dokumentą apdorokite mažesniais gabalais arba puslapiuose, kad sumažintumėte atminties naudojimą ir pagreitintų procesą.