Jak převést skenované PDF soubory na prohledávatelné textové dokumenty v .NET

Jak převést skenované PDF soubory na prohledávatelné textové dokumenty v .NET

Scanned PDFs jsou typicky needitovatelné, na obrázcích založené soubory, což ztěžuje extrakci textu z nich. Nicméně, s Aspose.OCR pro .NET můžete rychle transformovat tyto skenované PDF dokumenty na editovatelné, vyhledávatelné textové dokumenty, což usnadňuje získávání dat a správu dokumentů.

Proč byste měli převést skenované PDF na vyhledávatelný text?

  1. Zlepšená přístupnost:
    • Skenované PDF mohou být převedeny na text, který je vyhledávatelný a editovatelný, což umožňuje lepší přístup k obsahu.
  2. Organizace dat:
    • Jakmile je text převeden, může být organizován, manipulován a znovu použit v různých formátech jako Word, Excel nebo prostý text.
  3. Zachování obsahu:
    • Aspose.OCR zajišťuje, že původní obrázky a rozložení jsou zachovány, zatímco je text extrahován, což vám dává jak obsah, tak kontext.

Požadavky: Příprava na převod skenovaných PDF

Než začnete proces extrakce textu ze skenovaných PDF, ujistěte se, že splňujete následující:

  1. Nainstalujte Aspose.OCR pro .NET:
    • Nainstalujte potřebnou knihovnu pomocí NuGet s příkazem:
      dotnet add package Aspose.OCR
  2. Konfigurace licence:
    • Získejte a nakonfigurujte měřenou licenci pomocí metody SetMeteredKey(), abyste odemkli všechny funkce.
  3. Připravte své skenované PDF:
    • Ujistěte se, že vaše skenované PDF mají dobrou kvalitu (300 DPI nebo více) pro nejlepší výsledky OCR.

Podrobný návod na převod skenovaných PDF na text

Krok 1: Nakonfigurujte svou licenci

Začněte konfigurací své Aspose.OCR licence, abyste zajistili plný přístup k funkcím.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Měřená licence byla úspěšně nakonfigurována.");

Krok 2: Načtěte skenovaný PDF do objektu OCR Input

Načtěte skenovaný PDF soubor do OCR enginu pro rozpoznávání textu.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Určete stránky k zpracování (první 3 stránky)
Console.WriteLine("Skenovaný PDF byl úspěšně načten.");

Krok 3: Nakonfigurujte OCR engine pro rozpoznávání

Nastavte OCR engine pro optimalizaci extrakce textu ze skenovaného PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Určete jazyk OCR (použijte Latin pro angličtinu)
Console.WriteLine("Nastavení OCR byla nakonfigurována.");

Krok 4: Extrakce a uložení rozpoznaného textu

Zpracujte skenovaný PDF pro extrakci textu a výstup do souboru.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Extrakce textu byla úspěšná.");

// Výstup rozpoznaného textu do souboru
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Rozpoznaný text byl uložen do recognized_text.txt.");

Krok 5: Otestujte rozpoznaný text

Po extrakci ověřte přesnost rozpoznávání textu zkontrolováním výstupního souboru nebo jeho zobrazením na konzoli.


Běžné problémy a řešení

1. Nízká přesnost OCR

  • Řešení: Ujistěte se, že kvalita skenovaného PDF je vysoká (300 DPI nebo více) pro lepší přesnost rozpoznávání.

2. Nesprávné rozpoznávání jazyka

  • Řešení: Výslovně určete jazykové nastavení v RecognitionSettings pro lepší výsledky, zejména pro ne-latinské znaky.

3. Pomalý výkon pro velké soubory

  • Řešení: Zpracovávejte velké PDF v dávkách nebo optimalizujte využití paměti pro urychlení procesu OCR.
 Čeština