Kaip konvertuoti skanytus PDF failus į paieškos tekstinius dokumentus .NET

Skandinti PDF dažnai yra sudėtinga dirbti su, nes jie iš esmės yra tik teksto vaizdai. Konvertuojant šiuos vaizdus į paieškos, redaguojamus tekstinius dokumentus atveria galimybes dokumentų valdymui ir turinio prieinamumui. Aspose.OCR .NET , galite konvertuoti skandintus PDF į visiškai ieškomą dokumentą, išlaikydami originalias nuotraukas.

Kodėl konvertuojami skanūs PDF dokumentai į paieškos tekstinius dokumentus?

prieinamumas:- Skanytą turinį galima ieškoti, todėl lengva rasti informaciją be rankinio skaitymo per dokumentą.
Skaitmeninis turinys:- Kai konvertuojamas į tekstą, turinys gali būti redaguojamas, atnaujinamas arba pakartotinai naudojamas kitais formatais.
Efektyvumas:- Taupykite laiką automatizuojant skanų PDF konvertavimo procesą į visiškai prieinamus tekstinius dokumentus.

Reikalavimai: Įdiegti skanytą PDF teksto ekstrakciją

Prieš išgaunant tekstą iš skanintų PDF, laikykitės šių žingsnių, kad įsitikintumėte, jog viskas yra nustatyta:

Įdiegti Aspose.OCR už .NET:- Pridėti Aspose.OCR į savo projektą naudojant NuGet: dotnet add package Aspose.OCR
Gaukite savo licenciją:- Įdiegti savo matuotą licenciją naudojant SetMeteredKey() išjungti visą Aspose.OCR funkcionalumą.
Pasiruoškite savo skanytą PDF:- Įsitikinkite, kad nuskaityti PDF dokumentai yra geros kokybės, siekiant geresnio atpažinimo tikslumo.

Žingsnis po žingsnio vadovas: konvertuojant skanytus PDF į paieškos tekstą

1 žingsnis: įdiegti savo licenciją

Pradėkite konfigūruodami savo „Aspose.OCR“ licenciją, kad atvertumėte visas funkcijas.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

2 žingsnis: Atsisiųskite Skanytą PDF į OCR įvesties objektą

Vėliau atsisiųskite skenavimą target="_blank" rel="noopener"> PDF

į OcrInput objektą pradėti OCR procesą.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

3 žingsnis: nustatyti OCR variklį atpažinimo

Įdėkite OCR variklį ir konfigūruokite bet kokius atpažinimo nustatymus, tokius kaip kalba ir tikslumas.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

4 žingsnis: ištraukti ir išvesti pripažintą tekstą

Dabar ištraukite tekstą iš nuskaityto PDF naudojant OCR variklį.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

5 žingsnis: Patikrinkite paieškos PDF

Įsitikinkite, kad ištrauktas tekstas yra paieškos ir redaguojamas bandydamas išleidimą PDF žiūrovas ar redaktorius.

Bendros problemos ir fiksacijos

Mažas OCR tikslumas

Išsprendimas : Įsitikinkite, kad skenuojamas PDF yra aukštos kokybės (mažiausiai 300 DPI), siekiant pagerinti atpažinimo rezultatus.

Nepatvirtinti fontai

Išsprendimas : užtikrinkite, kad OCR nustatymuose būtų nustatyta teisinga kalba, siekiant tiksliai atpažinti tekstą, ypač ne lotynų simboliams.

Lėtas rezultatas dideliems PDF failams

Išsprendimas : Dideliems PDF failams dokumentą apdorokite mažesniais gabalais arba puslapiuose, kad sumažintumėte atminties naudojimą ir pagreitintų procesą.