Kako izvesti tekst iz skeniranih PDF-a u .NET-u pomoću Aspose.OCR-a

Kako izvesti tekst iz skeniranih PDF-a u .NET-u pomoću Aspose.OCR-a

Skanirani PDF-ovi često su izazovni da rade s njima jer su u osnovi samo slike teksta. pretvaranje tih slika u pretraživačke, uređujuće tekstne dokumente otvara svijet mogućnosti za upravljanje dokumentima i pristupačnost sadržaja. sa Aspose.OCR za .NET, možete pretvoriti skenirane pdf-ove u potpuno tražene dokaze dok sačuvate originalne slike.

Zašto je OCR (Optical Character Recognition) važan za skenirane PDF-ove

  • Uklanjanje podataka:- OCR omogućuje pretvaranje skeniranog teksta u strojno čitljive podatke, koji se mogu urediti i indeksirati.

  • Tražljivost za pretraživanje:- Konvertirajući skenirane PDF-ove u pretražive dokumente, možete brzo pronaći relevantne informacije bez ručnog pretraživanja kroz stranice.

  • Povećana produktivnost:- Uštedite vrijeme automatiziranjem pretvaranja skeniranih dokumenata u uredljive formate kao što su Word ili Excel.

Preduvjeti: postavljanje za skenirano PDF tekst ekstrakcije

Prije nego što počnete izvlačiti tekst iz vaših skeniranih PDF-a, pobrinite se da su sljedeći koraki dovršeni:

  • Install Aspose.OCR za .NET:- Dodajte Aspose.OCR u svoj projekt pomoću NuGeta: dotnet add package Aspose.OCR

  • Dobit će se kvalificirana dozvola:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Pripremite svoje skenirane PDF-ove:- Uvjerite se da su vaši skenirani PDF-ovi visokokvalitetni. bolji rezultati kvalitete u točnijem OCR-u.

Korak po korak vodič: ekstrakcija teksta iz skeniranih PDF-a

Korak 1: Instalirajte potrebnu knjižnicu

Počnite instaliranjem Aspose.OCR za .NET u vaš projekt. možete to učiniti izravno iz NuGeta.

dotnet add package Aspose.OCR

Korak 2: Postavite svoj licencijski ključ

Prije postupka, postavite licencu za Aspose.OCR kako biste otključili sve značajke.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Korak 3: Preuzmite skenirani PDF u OCR Input Object

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Korak 4: Procesiranje skeniranog PDF-a pomoću motora OCR-a

S PDF-om preuzeto, prebacite ga na Aspose OCR motor za prepoznavanje.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Korak 5: Izvadite prepoznatljiv tekst ili ga sačuvajte

Nakon što OCR motor obrađuje PDF, možete izvući prepoznatljiv tekst izravno ili ga sačuvati u datoteku.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Korak 6: Test i optimizacija rezultata OCR-a

Nakon uklanjanja teksta, provjerite izlazak za točnost. ako je potrebno, možete dodirnuti postavke OCR-a kako biste poboljšali rezultate za različite raspored dokumenata.

Zajednička pitanja i rješenja

1. loša OCR točnost

  • Rješenje: Uvjerite se da je kvaliteta skeniranog PDF-a visoka. koristite skeniranje visoke rezolucije kako biste poboljšali točnost prepoznavanja.

2. nepomoćni fontovi

  • Rješenje: Pružite ispravno postavljanje jezika u opcijama OCR-a kako biste poboljšali prepoznavanje ne-latinskih znakova.

3. usporeno djelovanje

  • Rješenje: Razbijte PDF u male komadiće ili stranice za brzu obradu, osobito za velike dokumente.
 Hrvatski