Ako premeniť skenované PDF do vyhľadávateľných textových dokumentov v .NET
Skanované PDF sú často náročné pracovať s tým, pretože sú v podstate len obrázky textu. Konverzia týchto obrázkov do vyhľadávateľných, editovateľných textových dokumentov otvára svet možností pre správu dokumentu a prístupnosť obsahu. Aspose.OCR pre .NET, môžete konverziu skenovaných PDF do plne hľadaných dokladov pri zachovaní pôvodných obrazov.
Prečo premeniť skenované PDF do vyhľadávateľných textových dokumentov?
Dostupnosť:- Urobte skenovaný obsah vyhľadávateľný, takže je ľahké nájsť informácie bez manuálneho čítania prostredníctvom dokumentu.
Obsahová úprava:- Po premenení na text môže byť obsah upravený, aktualizovaný alebo znovu použitý v iných formátoch.
efektívnosť:- Ušetriť čas automatizáciou procesu premeny skenovaných PDF do plne prístupných textových dokumentov.
Predpoklady: Nastavenie skenovanej PDF textovej extrakcie
Predtým, než extrahujete text z skenovaných PDF, postupujte podľa týchto krokov, aby ste sa uistili, že všetko je nastavené:
Inštalovať Aspose.OCR pre .NET:- Pridajte Aspose.OCR do svojho projektu pomocou NuGet:
dotnet add package Aspose.OCR
Získajte svoju licenciu:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Pripravte svoj skenovaný PDF:- Uistite sa, že skenované PDF sú kvalitné pre lepšiu presnosť rozpoznávania.
Krok za krokom sprievodca: Konvertovanie skenovaných PDF do vyhľadávateľného textu
Krok 1: Nastavenie vašej licencie
Začnite konfiguráciou licencie Aspose.OCR na odblokovanie všetkých funkcií.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Krok 2: Nahrať skenovaný PDF do OCR vstupného objektu
Následne nahrajte naskenovaný PDF do objektu OcrInput a začnite proces OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Krok 3: Nastavenie motora OCR pre rozpoznanie
Nastavenie motora OCR a nastavenie akýchkoľvek rozpoznávacích nastavení, ako je jazyk a presnosť.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Krok 4: Odstrániť a vytiahnuť uznávaný text
Teraz extrahujte text z skenovaného PDF pomocou motora OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Krok 5: Vyskúšajte vyhľadávateľný PDF
Uistite sa, že vytiahnutý text je vyhľadávateľný a editovateľný testovaním výstupu v PDF prehliadači alebo editoru.
Spoločné problémy a riešenia
Nízka presnosť OCR
- Riešenie: Uistite sa, že skenovaný PDF je vysoko kvalitný (minimálne 300 DPI), aby sa zlepšili výsledky rozpoznávania.
• Nepodporované fonty
- Riešenie: Uistite sa, že správny jazyk je nastavený v nastaveniach OCR pre presné rozpoznávanie textu, najmä pre ne-latinské znaky.
3. pomalé výkony pre veľké PDF
- Riešenie: Pri veľkých súboroch PDF sa dokument spracúva v menších častiach alebo stránkach s cieľom znížiť používanie pamäte a urýchliť proces.