Kā pārvērst skenētos PDF dokumentus meklējamiem teksta dokumentiem .NET
Scanned PDFs parasti nav rediģējami, attēla balstīti faili, kas padara to grūti izņemt tekstu no tiem. Tomēr ar Aspose.OCR for .NET , jūs varat ātri pārveidot šos skanētos PDF dokumentus redakcionālos, meklējamos teksta dokumentos, lai padarītu datu atgūšanu un dokumentu pārvaldību daudz vieglāk.
Kāpēc jums vajadzētu pārvērst skenētos PDF dokumentus meklējamā tekstā?
- Palielināta pieejamība*- Skanētos PDF dokumentus var pārvērst tekstā, kas ir meklējams un rediģēts, ļaujot labāku piekļuvi saturam.
Datu organizācija:- Pēc konvertēšanas tekstu var organizēt, manipulēt un atkārtoti izmantot dažādos formātos, piemēram, Word, Excel vai plašs teksts.
satura saglabāšana:- Aspose.OCR nodrošina, ka oriģinālie attēli un izkārtojumi tiek saglabāti, kamēr teksts tiek iegūts, dodot jums gan saturu, gan kontekstu.
Priekšnoteikumi: Sagatavoties skenētai PDF konversijai
Pirms sākat procesu, lai iegūtu tekstu no skenētiem PDF, pārliecinieties, ka:
Install Aspose.OCR par .NET :- Instalēt nepieciešamo bibliotēku, izmantojot NuGet ar komandu:
dotnet add package Aspose.OCR
Licences konfigurācija:- Iegūt un konfigurēt mērītas licences, izmantojot
SetMeteredKey()
Metode, lai atslēgtu visas funkcijas.Pārveidojiet savus skenētos PDF failus :- Pārliecinieties, ka jūsu skenētie PDF ir labas kvalitātes (300 DPI vai augstāk) par labākajiem OCR rezultātiem.
Pakāpeniski ceļvedis, kā pārvērst skenētos PDF failus tekstā
1. solis: Iestatīt savu licenci
Sāciet ar jūsu Aspose.OCR licences konfigurēšanu, lai nodrošinātu pilnīgu piekļuvi funkcijām.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
2. solis: Lejupielādēt skenēto PDF uz OCR ieejas objektu
Lejupielādējiet skenēto PDF failu OCR motora teksta atpazīstamībai.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
3. solis: Iestatīt OCR dzinēju atpazīstamībai
Iestatīt OCR dzinēju, lai optimizētu teksta ekstrakciju no skenētā PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
4. solis: Izņemt un saglabāt atpazīstamo tekstu
Pārstrādā skanēto PDF, lai iegūtu tekstu un izvadītu to uz failu.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
5. solis: Pārbaudiet atzītu tekstu
Pēc ekstrakcijas pārbaudiet teksta atpazīšanas precizitāti, pārbaudot izejas failu vai parādot to konsolā.
Kopīgas problēmas un fiksācijas
Neliela OCR precizitāte
- Lēmums : Pārliecinieties, ka skenētā PDF kvalitāte ir augsta (300 DPI vai vairāk), lai uzlabotu atpazīšanas precizitāti.
Nepareiza valodas atpazīšana
- **Solution ** : skaidri norādīt valodas iestatījumus RecognitionSettings , lai iegūtu labākus rezultātus, it īpaši ne-Latīņu rakstzīmēm.
3. lēna veiktspēja lielajiem failiem
- Lēmums : apstrādā lielus PDF failus gabalos vai optimizē atmiņas izmantošanu, lai paātrinātu OCR procesu.