Jak převést naskenované PDF soubory na prohledávatelné textové dokumenty v .NET

Jak převést naskenované PDF soubory na prohledávatelné textové dokumenty v .NET

Scannované PDF soubory jsou často obtížné na zpracování, protože jsou v podstatě jen obrázky textu. Převod těchto obrázků na prohledávatelné, editovatelné textové dokumenty otevírá svět možností pro správu dokumentů a přístup k obsahu. S Aspose.OCR pro .NET můžete převést skenované PDF soubory na plně prohledávatelné dokumenty, přičemž zachováte původní obrázky.

Proč převádět skenované PDF soubory na prohledávatelné textové dokumenty?

  1. Přístupnost:
    • Umožněte prohledávání skenovaného obsahu, což usnadní nalezení informací bez nutnosti ručně číst dokument.
  2. Úprava obsahu:
    • Jakmile je obsah převeden na text, může být upravován, aktualizován nebo znovu použit v jiných formátech.
  3. Efektivita:
    • Ušetřete čas automatizací procesu převodu skenovaných PDF souborů na plně přístupné textové dokumenty.

Požadavky: Nastavení pro extrakci textu ze skenovaných PDF

Před extrakcí textu ze skenovaných PDF postupujte podle těchto kroků, abyste zajistili, že je vše nastaveno:

  1. Nainstalujte Aspose.OCR pro .NET:
    • Přidejte Aspose.OCR do svého projektu pomocí NuGet:
      dotnet add package Aspose.OCR
  2. Získejte svou licenci:
    • Nastavte svou licencovanou licenci pomocí SetMeteredKey(), abyste odemkli plnou funkčnost Aspose.OCR.
  3. Připravte svůj skenovaný PDF:
    • Ujistěte se, že skenované PDF soubory jsou dobré kvality pro lepší přesnost rozpoznávání.

Krok za krokem: Převod skenovaných PDF na prohledávatelný text

Krok 1: Nastavte svou licenci

Nejprve nakonfigurujte svou licenci Aspose.OCR, abyste odemkli všechny funkce.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licence úspěšně nakonfigurována.");

Krok 2: Načtěte skenovaný PDF do objektu OCR Input

Dále načtěte skenovaný PDF do objektu OcrInput, abyste zahájili proces OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Zpracovat první 3 stránky
Console.WriteLine("Skenovaný PDF úspěšně načten.");

Krok 3: Nakonfigurujte OCR engine pro rozpoznávání

Nastavte OCR engine a nakonfigurujte jakákoli nastavení rozpoznávání, jako je jazyk a přesnost.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Nastavit jazyk OCR
Console.WriteLine("OCR engine nakonfigurován.");

Krok 4: Extrakce a výstup rozpoznaného textu

Nyní extrahujte text ze skenovaného PDF pomocí OCR engine.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text úspěšně extrahován ze skenovaného PDF.");

// Výstup rozpoznaného textu
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Uložení výsledku do textového souboru
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text uložen do recognized_text.txt.");

Krok 5: Otestujte prohledávatelný PDF

Ujistěte se, že extrahovaný text je prohledávatelný a editovatelný testováním výstupu v prohlížeči nebo editoru PDF.

Běžné problémy a řešení

1. Nízká přesnost OCR

  • Řešení: Ujistěte se, že skenovaný PDF má vysokou kvalitu (alespoň 300 DPI), aby se zlepšily výsledky rozpoznávání.

2. Nepodporované písma

  • Řešení: Ujistěte se, že správný jazyk je nastaven v nastaveních OCR pro přesné rozpoznávání textu, zejména pro znaky mimo latinku.

3. Pomalý výkon u velkých PDF

  • Řešení: U velkých PDF zpracovávejte dokument v menších blocích nebo stránkách, abyste snížili využití paměti a urychlili proces.
 Čeština