Kā pārvērst skenētos PDF dokumentus meklējamiem teksta dokumentiem .NET

Scanned PDFs bieži ir grūti strādāt ar, jo tie ir būtībā tikai teksta attēli. Konvertējot šīs attēlus uz meklējamiem, rediģējamajiem tekstdokumentiem atver iespēju pasauli dokumentu pārvaldībai un satura pieejamībai. Ar Aspose.OCR for .NET , jūs varat konvertēt skanētos PDF dokumentus pilnībā meklētiem dokumentiem un saglabājot oriģinālās fotogrāfijas.

Kāpēc pārvērst skenētos PDF dokumentus meklējamiem teksta dokumentiem?

pieejamība ir:- Padariet skenēto saturu meklējamu, padarot to viegli atrast informāciju, nepārlasot manuāli caur dokumentu.
Ievērojams saturs:- Pēc tam, kad konvertēts teksts, saturs var tikt rediģēts, atjaunināts vai atkārtoti izmantots citā formātā.
Efektivitāte:- Ietaupiet laiku, automātiski pārveidojot skenētos PDF dokumentus par pilnībā pieejamiem teksta dokumentiem.

Priekšnoteikumi: Settings for Scanned PDF Text Extraction

Pirms izņemt tekstu no skenētiem PDF, ievērojiet šos soļus, lai pārliecinātos, ka viss ir iestatīts:

Install Aspose.OCR par .NET:- Pievienojiet Aspose.OCR savam projektam, izmantojot NuGet: dotnet add package Aspose.OCR
Iegūt savu licenci:- Iestatīt savu mērīto licences, izmantojot SetMeteredKey() lai izslēgtu visu Aspose.OCR funkcionalitāti.
Pārveidojiet savu skenēto PDF:- Pārliecinieties, ka skenētie PDF ir labas kvalitātes, lai uzlabotu atpazīšanas precizitāti.

Pakāpeniski ceļvedis: pārveidojiet skenētos PDF failus par meklējamu tekstu

1. solis: Ievietojiet savu licenci

Sāciet, konfigurējot Aspose.OCR licences, lai atslēgtu visas funkcijas.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

2. solis: Lejupielādēt skenēto PDF uz OCR ieejas objektu

Nākamais rakstsSkanēta target="_blank" rel="noopener"> PDF

ievietojiet OcrInput objektu, lai sāktu OCR procesu.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

3. solis: Iestatīt OCR dzinēju atpazīstamībai

Iestatīt OCR dzinēju un konfigurēt jebkādus atpazīšanas iestatījumus, piemēram, valodu un precizitāti.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

4. solis: Izrakstīt un noņemt atpazīstamo tekstu

Tagad, izņemt tekstu no skenētā PDF, izmantojot OCR dzinēju.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

5. solis: Pārbaudiet meklējamo PDF

Pārliecinieties, ka iegūtais teksts ir meklējams un rediģēts, pārbaudot iznākumu PDF skatītājā vai redaktorā.

Kopīgas problēmas un fiksācijas

Neliela OCR precizitāte

Lēmums : Pārliecinieties, ka skenētais PDF ir augstas kvalitātes (vismaz 300 DPI), lai uzlabotu atpazīšanas rezultātus.

Neatbalstītie fonti

Rīkojums : Pārliecinieties, ka pareizā valoda tiek ieviesta OCR iestatījumos, lai precizētu teksta atpazīstamību, it īpaši ne-latīņu rakstzīmēm.

3. lēna veiktspēja lieliem PDF

Lēmums : Lieliem PDF dokumentiem dokumentu apstrādā mazākajos gabalos vai lapās, lai samazinātu atmiņas izmantošanu un paātrinātu procesu.