Jak převést skenované PDF do vyhledatelných textových dokumentů v .NET

Jak převést skenované PDF do vyhledatelných textových dokumentů v .NET

Skenované PDF soubory jsou obvykle needitovatelné, obrazové soubory, což ztěžuje extrahovat text z nich. Aspose.OCR pro .NET však můžete rychle transformovat tyto skenované PDF do editovatelných, vyhledatelných textových dokumentů, které zjednodušují odběr dat a správu dokument.

Proč byste měli přeměnit skenované PDF do vyhledávaného textu?

  • zvýšená dostupnost:- Skenované PDF lze převést na text, který je vyhledatelný a editovatelný, což umožňuje lepší přístup k obsahu.

  • Organizace údaj:- Po konverzi může být text organizován, manipulován a znovu použit v různých formátech, jako je Word, Excel nebo plochý text.

  • obsahová údržba:- Aspose.OCR zajišťuje, že původní obrázky a rozložení jsou zachovány, zatímco text je extrahován, což vám dává jak obsah, tak kontext.

Předpoklady: Připravte se na skenovanou konverzi PDF

Před zahájením procesu extrahování textu z naskenovaných PDF, ujistěte se, že:

  • Install Aspose.OCR pro .NET:- Instalace potřebné knihovny pomocí NuGet s příkazem: dotnet add package Aspose.OCR

  • Licenční nastaven:- Získejte a nastavte umístěnou licenci pomocí SetMeteredKey() Metoda odemknutí všech funkcí.

  • Připravte své skenované PDF soubory:- Ujistěte se, že vaše skenované PDF jsou v dobré kvalitě (300 DPI nebo vyšší) pro nejlepší výsledky OCR.

Krok za krokem průvodce pro konverzi skenovaných PDF do textu

Krok 1: Vytvořte si licenci

Začněte tím, že konfigurujete licenci Aspose.OCR, abyste zajistili plný přístup k funkcím.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Krok 2: Stáhněte skenovaný PDF do OCR vstupního objektu

Stáhněte skenovaný soubor PDF do motoru OCR pro rozpoznávání textu.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Krok 3: Nastavení motoru OCR pro rozpoznání

Nastavení motoru OCR pro optimalizaci extrakce textu z skenovaného PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Krok 4: Odstraňte a uložte rozpoznaný text

Skenovaný PDF zpracovává k extrahování textu a jeho výstupu do souboru.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Krok 5: Vyzkoušejte rozpoznaný text

Po extrahování ověřte přesnost rozpoznávání textu kontrolou výstupního souboru nebo jeho zobrazením na konzoli.

Společné problémy a fixy

1. špatná OCR přesnost

  • Rozhodnutí: Ujistěte se, že skenovaná kvalita PDF je vysoká (300 DPI nebo více) pro lepší přesnost rozpoznáván.

Nesprávné jazykové uznání

  • Rozhodnutí: Výslovně specifikujte jazykové nastavení v RecognitionSettings pro lepší výsledky, zejména pro ne-latinské znaky.

Pomalá výkonnost pro velké soubory

  • Rozhodnutí: zpracovávejte velké PDF soubory do kusů nebo optimalizujte používání paměti pro urychlení procesu OCR.
 Čeština