Jak převést skenované PDF soubory na prohledávatelné textové dokumenty v .NET
Scanned PDFs jsou typicky needitovatelné, na obrázcích založené soubory, což ztěžuje extrakci textu z nich. Nicméně, s Aspose.OCR pro .NET můžete rychle transformovat tyto skenované PDF dokumenty na editovatelné, vyhledávatelné textové dokumenty, což usnadňuje získávání dat a správu dokumentů.
Proč byste měli převést skenované PDF na vyhledávatelný text?
- Zlepšená přístupnost:
- Skenované PDF mohou být převedeny na text, který je vyhledávatelný a editovatelný, což umožňuje lepší přístup k obsahu.
- Organizace dat:
- Jakmile je text převeden, může být organizován, manipulován a znovu použit v různých formátech jako Word, Excel nebo prostý text.
- Zachování obsahu:
- Aspose.OCR zajišťuje, že původní obrázky a rozložení jsou zachovány, zatímco je text extrahován, což vám dává jak obsah, tak kontext.
Požadavky: Příprava na převod skenovaných PDF
Než začnete proces extrakce textu ze skenovaných PDF, ujistěte se, že splňujete následující:
- Nainstalujte Aspose.OCR pro .NET:
- Nainstalujte potřebnou knihovnu pomocí NuGet s příkazem:
dotnet add package Aspose.OCR
- Nainstalujte potřebnou knihovnu pomocí NuGet s příkazem:
- Konfigurace licence:
- Získejte a nakonfigurujte měřenou licenci pomocí metody
SetMeteredKey()
, abyste odemkli všechny funkce.
- Získejte a nakonfigurujte měřenou licenci pomocí metody
- Připravte své skenované PDF:
- Ujistěte se, že vaše skenované PDF mají dobrou kvalitu (300 DPI nebo více) pro nejlepší výsledky OCR.
Podrobný návod na převod skenovaných PDF na text
Krok 1: Nakonfigurujte svou licenci
Začněte konfigurací své Aspose.OCR licence, abyste zajistili plný přístup k funkcím.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Měřená licence byla úspěšně nakonfigurována.");
Krok 2: Načtěte skenovaný PDF do objektu OCR Input
Načtěte skenovaný PDF soubor do OCR enginu pro rozpoznávání textu.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Určete stránky k zpracování (první 3 stránky)
Console.WriteLine("Skenovaný PDF byl úspěšně načten.");
Krok 3: Nakonfigurujte OCR engine pro rozpoznávání
Nastavte OCR engine pro optimalizaci extrakce textu ze skenovaného PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Určete jazyk OCR (použijte Latin pro angličtinu)
Console.WriteLine("Nastavení OCR byla nakonfigurována.");
Krok 4: Extrakce a uložení rozpoznaného textu
Zpracujte skenovaný PDF pro extrakci textu a výstup do souboru.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Extrakce textu byla úspěšná.");
// Výstup rozpoznaného textu do souboru
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Rozpoznaný text byl uložen do recognized_text.txt.");
Krok 5: Otestujte rozpoznaný text
Po extrakci ověřte přesnost rozpoznávání textu zkontrolováním výstupního souboru nebo jeho zobrazením na konzoli.
Běžné problémy a řešení
1. Nízká přesnost OCR
- Řešení: Ujistěte se, že kvalita skenovaného PDF je vysoká (300 DPI nebo více) pro lepší přesnost rozpoznávání.
2. Nesprávné rozpoznávání jazyka
- Řešení: Výslovně určete jazykové nastavení v RecognitionSettings pro lepší výsledky, zejména pro ne-latinské znaky.
3. Pomalý výkon pro velké soubory
- Řešení: Zpracovávejte velké PDF v dávkách nebo optimalizujte využití paměti pro urychlení procesu OCR.