Jak extrahovat text ze skenovaných PDF v .NET pomocí Aspose.OCR

Jak extrahovat text ze skenovaných PDF v .NET pomocí Aspose.OCR

Scanned PDFs jsou často náročné na práci, protože jsou v podstatě jen obrázky textu. Převod těchto obrázků na prohledávatelné, editovatelné textové dokumenty otevírá svět možností pro správu dokumentů a přístupnost obsahu. S Aspose.OCR pro .NET můžete převést skenované PDF na plně prohledávatelné dokumenty, přičemž zachováte původní obrázky.

Proč je OCR (Optické rozpoznávání znaků) důležité pro skenované PDF

  1. Extrakce dat:
    • OCR vám umožňuje převést skenovaný text na strojově čitelná data, která lze editovat a indexovat.
  2. Prohledatelnost:
    • Převodem skenovaných PDF na prohledávatelné dokumenty můžete rychle najít relevantní informace bez manuálního prohledávání stránek.
  3. Zvýšená produktivita:
    • Ušetřete čas automatizací převodu skenovaných dokumentů do editovatelných formátů jako Word nebo Excel.

Požadavky: Nastavení pro extrakci textu ze skenovaných PDF

Než začnete extrahovat text ze svých skenovaných PDF, ujistěte se, že jsou splněny následující kroky:

  1. Nainstalujte Aspose.OCR pro .NET:
    • Přidejte Aspose.OCR do svého projektu pomocí NuGet:
      dotnet add package Aspose.OCR
  2. Získejte licenční klíč:
    • Nastavte svůj licenční klíč, abyste odemkli všechny funkce knihovny Aspose.OCR pomocí SetMeteredKey().
  3. Připravte svá skenovaná PDF:
    • Ujistěte se, že vaše skenovaná PDF mají vysokou kvalitu. Lepší kvalita vede k přesnějšímu OCR.

Podrobný návod: Extrakce textu ze skenovaných PDF

Krok 1: Nainstalujte požadovanou knihovnu

Nejprve nainstalujte Aspose.OCR pro .NET do svého projektu. Můžete to udělat přímo z NuGet.

dotnet add package Aspose.OCR

Krok 2: Nastavte své licenční klíče

Před pokračováním nakonfigurujte svou licenci pro Aspose.OCR, abyste odemkli všechny funkce.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licence byla úspěšně nakonfigurována.");

Krok 3: Načtěte skenované PDF do objektu OCR Input

Budete muset načíst skenované PDF do objektu OcrInput. Aspose.OCR podporuje skenování více stránek PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Zpracovat první 3 stránky PDF
Console.WriteLine("Skenované PDF bylo úspěšně načteno.");

Krok 4: Zpracujte skenované PDF pomocí OCR enginu

S PDF načteným, předáte ho enginu Aspose OCR k rozpoznání.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Nastavit jazyk OCR (např. Latin pro angličtinu)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text byl extrahován z PDF.");

Krok 5: Výstup rozpoznaného textu nebo jeho uložení

Jakmile OCR engine zpracuje PDF, můžete buď přímo vypsat rozpoznaný text, nebo ho uložit do souboru.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Rozpoznaný text: {recognizedText}");

// Uložení výsledku do textového souboru
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Rozpoznaný text byl uložen do output.txt.");

Krok 6: Testování a optimalizace výsledků OCR

Po extrakci textu otestujte výstup na přesnost. Pokud je to nutné, můžete upravit nastavení OCR pro zlepšení výsledků pro různé rozložení dokumentů.


Běžné problémy a řešení

1. Nízká přesnost OCR

  • Řešení: Ujistěte se, že kvalita skenovaného PDF je vysoká. Používejte skeny s vysokým rozlišením pro zlepšení přesnosti rozpoznávání.

2. Nepodporované písmo

  • Řešení: Zadejte správné nastavení jazyka v možnostech OCR pro zlepšení rozpoznávání pro ne-latinské znaky.

3. Pomalý výkon

  • Řešení: Rozdělte PDF na menší části nebo stránky pro rychlejší zpracování, zejména u velkých dokumentů.
 Čeština