Jak převést naskenované PDF soubory na prohledávatelné textové dokumenty v .NET
Scannované PDF soubory jsou často obtížné na zpracování, protože jsou v podstatě jen obrázky textu. Převod těchto obrázků na prohledávatelné, editovatelné textové dokumenty otevírá svět možností pro správu dokumentů a přístup k obsahu. S Aspose.OCR pro .NET můžete převést skenované PDF soubory na plně prohledávatelné dokumenty, přičemž zachováte původní obrázky.
Proč převádět skenované PDF soubory na prohledávatelné textové dokumenty?
- Přístupnost:
- Umožněte prohledávání skenovaného obsahu, což usnadní nalezení informací bez nutnosti ručně číst dokument.
- Úprava obsahu:
- Jakmile je obsah převeden na text, může být upravován, aktualizován nebo znovu použit v jiných formátech.
- Efektivita:
- Ušetřete čas automatizací procesu převodu skenovaných PDF souborů na plně přístupné textové dokumenty.
Požadavky: Nastavení pro extrakci textu ze skenovaných PDF
Před extrakcí textu ze skenovaných PDF postupujte podle těchto kroků, abyste zajistili, že je vše nastaveno:
- Nainstalujte Aspose.OCR pro .NET:
- Přidejte Aspose.OCR do svého projektu pomocí NuGet:
dotnet add package Aspose.OCR
- Přidejte Aspose.OCR do svého projektu pomocí NuGet:
- Získejte svou licenci:
- Nastavte svou licencovanou licenci pomocí
SetMeteredKey()
, abyste odemkli plnou funkčnost Aspose.OCR.
- Nastavte svou licencovanou licenci pomocí
- Připravte svůj skenovaný PDF:
- Ujistěte se, že skenované PDF soubory jsou dobré kvality pro lepší přesnost rozpoznávání.
Krok za krokem: Převod skenovaných PDF na prohledávatelný text
Krok 1: Nastavte svou licenci
Nejprve nakonfigurujte svou licenci Aspose.OCR, abyste odemkli všechny funkce.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licence úspěšně nakonfigurována.");
Krok 2: Načtěte skenovaný PDF do objektu OCR Input
Dále načtěte skenovaný PDF do objektu OcrInput, abyste zahájili proces OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Zpracovat první 3 stránky
Console.WriteLine("Skenovaný PDF úspěšně načten.");
Krok 3: Nakonfigurujte OCR engine pro rozpoznávání
Nastavte OCR engine a nakonfigurujte jakákoli nastavení rozpoznávání, jako je jazyk a přesnost.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Nastavit jazyk OCR
Console.WriteLine("OCR engine nakonfigurován.");
Krok 4: Extrakce a výstup rozpoznaného textu
Nyní extrahujte text ze skenovaného PDF pomocí OCR engine.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text úspěšně extrahován ze skenovaného PDF.");
// Výstup rozpoznaného textu
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Uložení výsledku do textového souboru
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text uložen do recognized_text.txt.");
Krok 5: Otestujte prohledávatelný PDF
Ujistěte se, že extrahovaný text je prohledávatelný a editovatelný testováním výstupu v prohlížeči nebo editoru PDF.
Běžné problémy a řešení
1. Nízká přesnost OCR
- Řešení: Ujistěte se, že skenovaný PDF má vysokou kvalitu (alespoň 300 DPI), aby se zlepšily výsledky rozpoznávání.
2. Nepodporované písma
- Řešení: Ujistěte se, že správný jazyk je nastaven v nastaveních OCR pro přesné rozpoznávání textu, zejména pro znaky mimo latinku.
3. Pomalý výkon u velkých PDF
- Řešení: U velkých PDF zpracovávejte dokument v menších blocích nebo stránkách, abyste snížili využití paměti a urychlili proces.