Jak převést skenované PDF do vyhledatelných textových dokumentů v .NET

Jak převést skenované PDF do vyhledatelných textových dokumentů v .NET

Scanned PDFs jsou často náročné pracovat s tím, protože jsou v podstatě jen obrázky textu. Konverzace těchto obrázků do vyhledatelných, editovatelných textových dokumentů otevírá svět možností pro správu dokumentů a přístupnost obsahu. Aspose.OCR pro .NET, můžete konverzovat scanned PDFs do plně vyhledatelných dokumentů při zachování původních obrázk.

Proč přeměnit skenované PDF do vyhledávaných textových dokument?

  • Dostupnost:- Umožňuje vyhledávání skenovaného obsahu, takže je snadné najít informace bez manuálního čtení prostřednictvím dokumentu.

  • Vybavení obsahu:- Po převedení do textu může být obsah upravován, aktualizován nebo znovu použit v jiných formátech.

  • innost:- Ušetřete čas automatizací procesu konverze skenovaných PDF do plně přístupných textových dokument.

Předpoklady: Nastavení skenované PDF textové extrakce

Předtím, než extrahujete text z naskenovaných PDF, postupujte podle těchto kroků, abyste zajistili, že je vše nastaveno:

  • Install Aspose.OCR pro .NET:- Přidejte Aspose.OCR do vašeho projektu pomocí NuGet: dotnet add package Aspose.OCR

  • Získejte svou licenci:- Vytvořte si své měřené licence pomocí SetMeteredKey() Pro odemknutí plné funkce Aspose.OCR.

  • Připravte svůj skenovaný PDF:- Ujistěte se, že skenované PDF jsou dobré kvality pro lepší přesnost rozpoznáván.

Krok za krokem průvodce: Konvertovat skenované PDF do vyhledatelného textu

Krok 1: Vytvořte si licenci

Začněte tím, že konfigurujete licenci Aspose.OCR pro odemknutí všech funkc.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Krok 2: Stáhněte skenovaný PDF do OCR vstupního objektu

Následně stáhněte skenovaný PDF do OcrInput objektu, abyste mohli zahájit proces OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Krok 3: Nastavení motoru OCR pro rozpoznání

Nastavení motoru OCR a nastavení jakýchkoli rozpoznávacích nastavení, jako je jazyk a přesnost.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Krok 4: Odstraňte a odstraňte uznávaný text

Nyní extrahujte text z naskenovaného PDF pomocí motoru OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Krok 5: Vyzkoušejte vyhledávaný PDF

Ujistěte se, že extrahovaný text je vyhledatelný a editovatelný testováním výstupu v prohlížeči PDF nebo editoru.

Společné problémy a fixy

Nízká OCR přesnost

  • Rozhodnutí: Ujistěte se, že skenovaný PDF je vysoce kvalitní (nejméně 300 DPI), aby se zlepšily výsledky rozpoznáván.

• Nepodporované fonty

  • Rozhodnutí: Ujistěte se, že správný jazyk je nastaven v nastavení OCR pro přesné rozpoznávání textu, zejména pro ne-latinské znaky.

Pomalé výkony pro velké PDF

  • Rozhodnutí: Pro velké PDF zpracujte dokument v menších částech nebo stránkách, abyste snížili používání paměti a urychlili proces.
 Čeština