Jak extrahovat text ze skenovaných PDF v .NET pomocí Aspose.OCR
Scanned PDFs jsou často náročné na práci, protože jsou v podstatě jen obrázky textu. Převod těchto obrázků na prohledávatelné, editovatelné textové dokumenty otevírá svět možností pro správu dokumentů a přístupnost obsahu. S Aspose.OCR pro .NET můžete převést skenované PDF na plně prohledávatelné dokumenty, přičemž zachováte původní obrázky.
Proč je OCR (Optické rozpoznávání znaků) důležité pro skenované PDF
- Extrakce dat:
- OCR vám umožňuje převést skenovaný text na strojově čitelná data, která lze editovat a indexovat.
- Prohledatelnost:
- Převodem skenovaných PDF na prohledávatelné dokumenty můžete rychle najít relevantní informace bez manuálního prohledávání stránek.
- Zvýšená produktivita:
- Ušetřete čas automatizací převodu skenovaných dokumentů do editovatelných formátů jako Word nebo Excel.
Požadavky: Nastavení pro extrakci textu ze skenovaných PDF
Než začnete extrahovat text ze svých skenovaných PDF, ujistěte se, že jsou splněny následující kroky:
- Nainstalujte Aspose.OCR pro .NET:
- Přidejte Aspose.OCR do svého projektu pomocí NuGet:
dotnet add package Aspose.OCR
- Přidejte Aspose.OCR do svého projektu pomocí NuGet:
- Získejte licenční klíč:
- Nastavte svůj licenční klíč, abyste odemkli všechny funkce knihovny Aspose.OCR pomocí
SetMeteredKey()
.
- Nastavte svůj licenční klíč, abyste odemkli všechny funkce knihovny Aspose.OCR pomocí
- Připravte svá skenovaná PDF:
- Ujistěte se, že vaše skenovaná PDF mají vysokou kvalitu. Lepší kvalita vede k přesnějšímu OCR.
Podrobný návod: Extrakce textu ze skenovaných PDF
Krok 1: Nainstalujte požadovanou knihovnu
Nejprve nainstalujte Aspose.OCR pro .NET do svého projektu. Můžete to udělat přímo z NuGet.
dotnet add package Aspose.OCR
Krok 2: Nastavte své licenční klíče
Před pokračováním nakonfigurujte svou licenci pro Aspose.OCR, abyste odemkli všechny funkce.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licence byla úspěšně nakonfigurována.");
Krok 3: Načtěte skenované PDF do objektu OCR Input
Budete muset načíst skenované PDF do objektu OcrInput
. Aspose.OCR podporuje skenování více stránek PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Zpracovat první 3 stránky PDF
Console.WriteLine("Skenované PDF bylo úspěšně načteno.");
Krok 4: Zpracujte skenované PDF pomocí OCR enginu
S PDF načteným, předáte ho enginu Aspose OCR k rozpoznání.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Nastavit jazyk OCR (např. Latin pro angličtinu)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text byl extrahován z PDF.");
Krok 5: Výstup rozpoznaného textu nebo jeho uložení
Jakmile OCR engine zpracuje PDF, můžete buď přímo vypsat rozpoznaný text, nebo ho uložit do souboru.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Rozpoznaný text: {recognizedText}");
// Uložení výsledku do textového souboru
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Rozpoznaný text byl uložen do output.txt.");
Krok 6: Testování a optimalizace výsledků OCR
Po extrakci textu otestujte výstup na přesnost. Pokud je to nutné, můžete upravit nastavení OCR pro zlepšení výsledků pro různé rozložení dokumentů.
Běžné problémy a řešení
1. Nízká přesnost OCR
- Řešení: Ujistěte se, že kvalita skenovaného PDF je vysoká. Používejte skeny s vysokým rozlišením pro zlepšení přesnosti rozpoznávání.
2. Nepodporované písmo
- Řešení: Zadejte správné nastavení jazyka v možnostech OCR pro zlepšení rozpoznávání pro ne-latinské znaky.
3. Pomalý výkon
- Řešení: Rozdělte PDF na menší části nebo stránky pro rychlejší zpracování, zejména u velkých dokumentů.