Kako izvesti tekst iz skeniranih PDF-a u .NET-u pomoću Aspose.OCR-a
Skanirani PDF-ovi često su izazovni da rade s njima jer su u osnovi samo slike teksta. pretvaranje tih slika u pretraživačke, uređujuće tekstne dokumente otvara svijet mogućnosti za upravljanje dokumentima i pristupačnost sadržaja. sa Aspose.OCR za .NET, možete pretvoriti skenirane pdf-ove u potpuno tražene dokaze dok sačuvate originalne slike.
Zašto je OCR (Optical Character Recognition) važan za skenirane PDF-ove
Uklanjanje podataka:- OCR omogućuje pretvaranje skeniranog teksta u strojno čitljive podatke, koji se mogu urediti i indeksirati.
Tražljivost za pretraživanje:- Konvertirajući skenirane PDF-ove u pretražive dokumente, možete brzo pronaći relevantne informacije bez ručnog pretraživanja kroz stranice.
Povećana produktivnost:- Uštedite vrijeme automatiziranjem pretvaranja skeniranih dokumenata u uredljive formate kao što su Word ili Excel.
Preduvjeti: postavljanje za skenirano PDF tekst ekstrakcije
Prije nego što počnete izvlačiti tekst iz vaših skeniranih PDF-a, pobrinite se da su sljedeći koraki dovršeni:
Install Aspose.OCR za .NET:- Dodajte Aspose.OCR u svoj projekt pomoću NuGeta:
dotnet add package Aspose.OCR
Dobit će se kvalificirana dozvola:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Pripremite svoje skenirane PDF-ove:- Uvjerite se da su vaši skenirani PDF-ovi visokokvalitetni. bolji rezultati kvalitete u točnijem OCR-u.
Korak po korak vodič: ekstrakcija teksta iz skeniranih PDF-a
Korak 1: Instalirajte potrebnu knjižnicu
Počnite instaliranjem Aspose.OCR za .NET u vaš projekt. možete to učiniti izravno iz NuGeta.
dotnet add package Aspose.OCR
Korak 2: Postavite svoj licencijski ključ
Prije postupka, postavite licencu za Aspose.OCR kako biste otključili sve značajke.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Korak 3: Preuzmite skenirani PDF u OCR Input Object
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Korak 4: Procesiranje skeniranog PDF-a pomoću motora OCR-a
S PDF-om preuzeto, prebacite ga na Aspose OCR motor za prepoznavanje.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Korak 5: Izvadite prepoznatljiv tekst ili ga sačuvajte
Nakon što OCR motor obrađuje PDF, možete izvući prepoznatljiv tekst izravno ili ga sačuvati u datoteku.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Korak 6: Test i optimizacija rezultata OCR-a
Nakon uklanjanja teksta, provjerite izlazak za točnost. ako je potrebno, možete dodirnuti postavke OCR-a kako biste poboljšali rezultate za različite raspored dokumenata.
Zajednička pitanja i rješenja
1. loša OCR točnost
- Rješenje: Uvjerite se da je kvaliteta skeniranog PDF-a visoka. koristite skeniranje visoke rezolucije kako biste poboljšali točnost prepoznavanja.
2. nepomoćni fontovi
- Rješenje: Pružite ispravno postavljanje jezika u opcijama OCR-a kako biste poboljšali prepoznavanje ne-latinskih znakova.
3. usporeno djelovanje
- Rješenje: Razbijte PDF u male komadiće ili stranice za brzu obradu, osobito za velike dokumente.