Ako premeniť skenované PDF do vyhľadávateľných textových dokumentov v .NET
Skanované PDF sú zvyčajne needitovateľné, obrázkové súbory, čo robí ťažké extrahovať text z nich. Avšak, s Aspose.OCR pre .NET, môžete rýchlo premeniť tieto skanné PDF do editovateľných, vyhľadávateľných textových dokumentov, ktoré uľahčujú prijímanie údajov a správu dokladov.
Prečo by ste mali premeniť skenované PDF do vyhľadávateľného textu?
Zvýšenie dostupnosti:- Skenované PDF sa môžu premeniť na text, ktorý je vyhľadávateľný a upraviteľný, čo umožňuje lepšiu prístupnosť k obsahu.
Organizácia údajov:- Po premenení môže byť text organizovaný, manipulovaný a opätovne použitý v rôznych formátoch, ako je napríklad Word, Excel alebo plochý text.
obsahová údržba:- Aspose.OCR zaisťuje, že pôvodné obrázky a rozloženie sú zachované, zatiaľ čo text je vytiahnutý, ktorý vám dáva obsah aj kontext.
Predpoklady: Pripraviť sa na skenovanú konverziu PDF
Predtým, než začnete proces extrahovania textu z skenovaných PDF, uistite sa, že:
Inštalovať Aspose.OCR pre .NET:- Inštalovať potrebnú knižnicu pomocou NuGet s príkazom:
dotnet add package Aspose.OCR
Licenčná konfigurácia:- Obtain and configure a metered license using the
SetMeteredKey()
method to unlock all features.Pripravte svoje skenované PDF súbory:- Uistite sa, že vaše skenované PDF sú v dobrej kvalite (300 DPI alebo vyššie) pre najlepšie výsledky OCR.
Krok za krokom sprievodca konverziou skenovaných PDF do textu
Krok 1: Nastavenie licencie
Začnite konfiguráciou vašej licencie Aspose.OCR s cieľom zabezpečiť úplný prístup k funkciám.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Krok 2: Nahrať skenovaný PDF do OCR vstupného objektu
Stiahnite skenovaný súbor PDF do motora OCR pre rozpoznávanie textu.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Krok 3: Nastavenie motora OCR pre rozpoznanie
Nastavenie motora OCR na optimalizáciu extrakcie textu z skenovaného PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Krok 4: Odstrániť a uložiť uznávaný text
Spracovať skenovaný PDF extrahovať text a vytiahnuť ho do súboru.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Krok 5: Testovanie uznávaného textu
Po extrakcii skontrolujte presnosť rozpoznávania textu, skontrolujte výstupný súbor alebo ho zobrazte na konzole.
Spoločné problémy a riešenia
Nízka presnosť OCR
- Riešenie: Uistite sa, že skenovaná kvalita PDF je vysoká (300 DPI alebo viac) pre lepšiu presnosť rozpoznávania.
• nesprávne jazykové uznanie
- Riešenie: Výslovne určte jazykové nastavenie v RecognitionSettings pre lepšie výsledky, najmä pre ne-latinské znaky.
3. pomalý výkon pre veľké súbory
- Riešenie: spracovanie veľkých PDF v kusoch alebo optimalizácia používania pamäte na urýchlenie procesu OCR.