Kako pretvoriti skenirane PDF-ove u pretražive tekstne dokumente u .NET-u
Skanirani PDF-ovi su obično ne-redaktivni, datoteke na bazi slike, što otežava ekstrakciju teksta iz njih. međutim, s Aspose.OCR za .NET, možete brzo pretvoriti te skenirane pdf-ove u uredljive, pretražive tekstne dokumente koji čine povlačenje podataka i upravljanje dokumentima mnogo lakšim.
Zašto trebate pretvoriti skenirane PDF-ove u pretraživ tekst?
Povećana dostupnost:- Skanirani PDF-ovi mogu se pretvoriti u tekst koji je tražljiv i uređen, što omogućuje bolju pristupačnost sadržaju.
Organizacija podataka:- Nakon pretvaranja, tekst se može organizirati, manipulirati i ponovno koristiti u različitim formatima kao što su Word, Excel ili ravni tekst.
Održavanje sadržaja:- Aspose.OCR osigurava da se originalne slike i raspored čuvaju dok se tekst izvlači, dajući vam i sadržaj i kontekst.
Preduvjeti: Pripremite se za skeniranu konverziju PDF-a
Prije nego što počnete proces ekstrakcije teksta iz skeniranih PDF-a, osigurajte sljedeće:
Install Aspose.OCR za .NET:- Instalirajte potrebnu knjižnicu pomoću NuGeta s zapovijedom:
dotnet add package Aspose.OCR
Konfiguriranje dozvola:- Obtain and configure a metered license using the
SetMeteredKey()
method to unlock all features.Pripremite svoje skenirane PDF-ove:- Uvjerite se da su vaši skenirani PDF-ovi u dobroj kvaliteti (300 DPI ili više) za najbolje rezultate OCR-a.
Korak po korak vodič za pretvaranje skeniranih PDF-a u tekst
Korak 1: Preuzmite licenciranje
Počnite konfiguriranjem Aspose.OCR licence kako biste osigurali potpuni pristup funkcijama.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Korak 2: Preuzmite skenirani PDF u OCR Input Object
Preuzmite skenirani PDF datoteku u OCR motor za prepoznavanje teksta.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Korak 3: Konfigurirajte OCR motor za prepoznavanje
Postavite OCR motor kako biste optimizirali ekstrakciju teksta iz skeniranog PDF-a.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Korak 4: Izvadite i sačuvajte prepoznatljiv tekst
Procesiranje skeniranog PDF-a kako bi se tekst izvukao i izvukao u datoteku.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Korak 5: Proverite prepoznatljiv tekst
Nakon ekstrakcije, provjerite točnost prepoznavanja teksta provjeravanjem izvornog datoteke ili prikazivanjem na konzoli.
Zajednička pitanja i rješenja
1. loša OCR točnost
- Rješenje: Uvjerite se da je kvaliteta skeniranog PDF-a visoka (300 DPI ili više) za bolju točnost prepoznavanja.
Nepravilno prepoznavanje jezika
- Rješenje: Izričito navedite postavke jezika u RecognitionSettings za bolje rezultate, osobito za ne-latinske znakove.
Slaba učinkovitost za velike datoteke
- Rješenje: obrađuje velike PDF-ove u komadićima ili optimizira upotrebu memorije kako bi se ubrzao proces OCR-a.