Ako premeniť skenované PDF do vyhľadávateľných textových dokumentov v .NET

Skanované PDF sú často náročné pracovať s tým, pretože sú v podstate len obrázky textu. Konverzia týchto obrázkov do vyhľadávateľných, editovateľných textových dokumentov otvára svet možností pre správu dokumentu a prístupnosť obsahu. Aspose.OCR pre .NET, môžete konverziu skenovaných PDF do plne hľadaných dokladov pri zachovaní pôvodných obrazov.

Prečo premeniť skenované PDF do vyhľadávateľných textových dokumentov?

Dostupnosť:- Urobte skenovaný obsah vyhľadávateľný, takže je ľahké nájsť informácie bez manuálneho čítania prostredníctvom dokumentu.
Obsahová úprava:- Po premenení na text môže byť obsah upravený, aktualizovaný alebo znovu použitý v iných formátoch.
efektívnosť:- Ušetriť čas automatizáciou procesu premeny skenovaných PDF do plne prístupných textových dokumentov.

Predpoklady: Nastavenie skenovanej PDF textovej extrakcie

Predtým, než extrahujete text z skenovaných PDF, postupujte podľa týchto krokov, aby ste sa uistili, že všetko je nastavené:

Inštalovať Aspose.OCR pre .NET:- Pridajte Aspose.OCR do svojho projektu pomocou NuGet: dotnet add package Aspose.OCR
Získajte svoju licenciu:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Pripravte svoj skenovaný PDF:- Uistite sa, že skenované PDF sú kvalitné pre lepšiu presnosť rozpoznávania.

Krok za krokom sprievodca: Konvertovanie skenovaných PDF do vyhľadávateľného textu

Krok 1: Nastavenie vašej licencie

Začnite konfiguráciou licencie Aspose.OCR na odblokovanie všetkých funkcií.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Krok 2: Nahrať skenovaný PDF do OCR vstupného objektu

Následne nahrajte naskenovaný PDF do objektu OcrInput a začnite proces OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Krok 3: Nastavenie motora OCR pre rozpoznanie

Nastavenie motora OCR a nastavenie akýchkoľvek rozpoznávacích nastavení, ako je jazyk a presnosť.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Krok 4: Odstrániť a vytiahnuť uznávaný text

Teraz extrahujte text z skenovaného PDF pomocou motora OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Krok 5: Vyskúšajte vyhľadávateľný PDF

Uistite sa, že vytiahnutý text je vyhľadávateľný a editovateľný testovaním výstupu v PDF prehliadači alebo editoru.

Spoločné problémy a riešenia

Nízka presnosť OCR

Riešenie: Uistite sa, že skenovaný PDF je vysoko kvalitný (minimálne 300 DPI), aby sa zlepšili výsledky rozpoznávania.

• Nepodporované fonty

Riešenie: Uistite sa, že správny jazyk je nastavený v nastaveniach OCR pre presné rozpoznávanie textu, najmä pre ne-latinské znaky.

3. pomalé výkony pre veľké PDF

Riešenie: Pri veľkých súboroch PDF sa dokument spracúva v menších častiach alebo stránkach s cieľom znížiť používanie pamäte a urýchliť proces.