Ako premeniť skenované PDF do vyhľadávateľných textových dokumentov v .NET

Ako premeniť skenované PDF do vyhľadávateľných textových dokumentov v .NET

Skanované PDF sú zvyčajne needitovateľné, obrázkové súbory, čo robí ťažké extrahovať text z nich. Avšak, s Aspose.OCR pre .NET, môžete rýchlo premeniť tieto skanné PDF do editovateľných, vyhľadávateľných textových dokumentov, ktoré uľahčujú prijímanie údajov a správu dokladov.

Prečo by ste mali premeniť skenované PDF do vyhľadávateľného textu?

  • Zvýšenie dostupnosti:- Skenované PDF sa môžu premeniť na text, ktorý je vyhľadávateľný a upraviteľný, čo umožňuje lepšiu prístupnosť k obsahu.

  • Organizácia údajov:- Po premenení môže byť text organizovaný, manipulovaný a opätovne použitý v rôznych formátoch, ako je napríklad Word, Excel alebo plochý text.

  • obsahová údržba:- Aspose.OCR zaisťuje, že pôvodné obrázky a rozloženie sú zachované, zatiaľ čo text je vytiahnutý, ktorý vám dáva obsah aj kontext.

Predpoklady: Pripraviť sa na skenovanú konverziu PDF

Predtým, než začnete proces extrahovania textu z skenovaných PDF, uistite sa, že:

  • Inštalovať Aspose.OCR pre .NET:- Inštalovať potrebnú knižnicu pomocou NuGet s príkazom: dotnet add package Aspose.OCR

  • Licenčná konfigurácia:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.

  • Pripravte svoje skenované PDF súbory:- Uistite sa, že vaše skenované PDF sú v dobrej kvalite (300 DPI alebo vyššie) pre najlepšie výsledky OCR.

Krok za krokom sprievodca konverziou skenovaných PDF do textu

Krok 1: Nastavenie licencie

Začnite konfiguráciou vašej licencie Aspose.OCR s cieľom zabezpečiť úplný prístup k funkciám.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Krok 2: Nahrať skenovaný PDF do OCR vstupného objektu

Stiahnite skenovaný súbor PDF do motora OCR pre rozpoznávanie textu.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Krok 3: Nastavenie motora OCR pre rozpoznanie

Nastavenie motora OCR na optimalizáciu extrakcie textu z skenovaného PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Krok 4: Odstrániť a uložiť uznávaný text

Spracovať skenovaný PDF extrahovať text a vytiahnuť ho do súboru.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Krok 5: Testovanie uznávaného textu

Po extrakcii skontrolujte presnosť rozpoznávania textu, skontrolujte výstupný súbor alebo ho zobrazte na konzole.

Spoločné problémy a riešenia

Nízka presnosť OCR

  • Riešenie: Uistite sa, že skenovaná kvalita PDF je vysoká (300 DPI alebo viac) pre lepšiu presnosť rozpoznávania.

• nesprávne jazykové uznanie

  • Riešenie: Výslovne určte jazykové nastavenie v RecognitionSettings pre lepšie výsledky, najmä pre ne-latinské znaky.

3. pomalý výkon pre veľké súbory

  • Riešenie: spracovanie veľkých PDF v kusoch alebo optimalizácia používania pamäte na urýchlenie procesu OCR.
 Slovenčina