Kā pārvērst skenētos PDF dokumentus meklējamiem teksta dokumentiem .NET

Scanned PDFs parasti nav rediģējami, attēla balstīti faili, kas padara to grūti izņemt tekstu no tiem. Tomēr ar Aspose.OCR for .NET , jūs varat ātri pārveidot šos skanētos PDF dokumentus redakcionālos, meklējamos teksta dokumentos, lai padarītu datu atgūšanu un dokumentu pārvaldību daudz vieglāk.

Kāpēc jums vajadzētu pārvērst skenētos PDF dokumentus meklējamā tekstā?

Palielināta pieejamība:- Skanētos PDF dokumentus var pārvērst tekstā, kas ir meklējams un rediģēts, ļaujot labāku piekļuvi saturam.
Datu organizācija:- Pēc konvertēšanas tekstu var organizēt, manipulēt un atkārtoti izmantot dažādos formātos, piemēram, Word, Excel vai plašs teksts.
satura saglabāšana:- Aspose.OCR nodrošina, ka oriģinālie attēli un izkārtojumi tiek saglabāti, kamēr teksts tiek iegūts, dodot jums gan saturu, gan kontekstu.

Priekšnoteikumi: Sagatavoties skenētai PDF konversijai

Pirms sākat procesu, lai iegūtu tekstu no skenētiem PDF, pārliecinieties, ka:

Install Aspose.OCR par .NET:- Instalēt nepieciešamo bibliotēku, izmantojot NuGet ar komandu: dotnet add package Aspose.OCR
Licences konfigurācija:- Iegūt un konfigurēt mērītas licences, izmantojot SetMeteredKey() Metode, lai atslēgtu visas funkcijas.
Pārveidojiet savus skenētos PDF failus:- Pārliecinieties, ka jūsu skenētie PDF ir labas kvalitātes (300 DPI vai augstāk) par labākajiem OCR rezultātiem.

Pakāpeniski ceļvedis, kā pārvērst skenētos PDF failus tekstā

1. solis: Iestatīt savu licenci

Sāciet ar jūsu Aspose.OCR licences konfigurēšanu, lai nodrošinātu pilnīgu piekļuvi funkcijām.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

2. solis: Lejupielādēt skenēto PDF uz OCR ieejas objektu

Uzlādēt skenēto target="_blank" rel="noopener"> PDF

failus OCR motora teksta atpazīstamībai.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

3. solis: Iestatīt OCR dzinēju atpazīstamībai

Iestatīt OCR dzinēju, lai optimizētu teksta ekstrakciju no skenētā PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

4. solis: Izņemt un saglabāt atpazīstamo tekstu

Pārstrādā skanēto PDF, lai iegūtu tekstu un izvadītu to uz failu.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

5. solis: Pārbaudiet atzītu tekstu

Pēc ekstrakcijas pārbaudiet teksta atpazīšanas precizitāti, pārbaudot izejas failu vai parādot to konsolā.

Kopīgas problēmas un fiksācijas

Neliela OCR precizitāte

Lēmums : Pārliecinieties, ka skenētā PDF kvalitāte ir augsta (300 DPI vai vairāk), lai uzlabotu atpazīšanas precizitāti.

Nepareiza valodas atpazīšana

**Solution ** : skaidri norādīt valodas iestatījumus RecognitionSettings , lai iegūtu labākus rezultātus, it īpaši ne-Latīņu rakstzīmēm.

3. lēna veiktspēja lielajiem failiem

Lēmums : apstrādā lielus PDF failus gabalos vai optimizē atmiņas izmantošanu, lai paātrinātu OCR procesu.