Jak převést skenované PDF do vyhledatelných textových dokumentů v .NET
Scanned PDFs jsou často náročné pracovat s tím, protože jsou v podstatě jen obrázky textu. Konverzace těchto obrázků do vyhledatelných, editovatelných textových dokumentů otevírá svět možností pro správu dokumentů a přístupnost obsahu. Aspose.OCR pro .NET, můžete konverzovat scanned PDFs do plně vyhledatelných dokumentů při zachování původních obrázk.
Proč přeměnit skenované PDF do vyhledávaných textových dokument?
Dostupnost:- Umožňuje vyhledávání skenovaného obsahu, takže je snadné najít informace bez manuálního čtení prostřednictvím dokumentu.
Vybavení obsahu:- Po převedení do textu může být obsah upravován, aktualizován nebo znovu použit v jiných formátech.
innost:- Ušetřete čas automatizací procesu konverze skenovaných PDF do plně přístupných textových dokument.
Předpoklady: Nastavení skenované PDF textové extrakce
Předtím, než extrahujete text z naskenovaných PDF, postupujte podle těchto kroků, abyste zajistili, že je vše nastaveno:
Install Aspose.OCR pro .NET:- Přidejte Aspose.OCR do vašeho projektu pomocí NuGet:
dotnet add package Aspose.OCR
Získejte svou licenci:- Vytvořte si své měřené licence pomocí
SetMeteredKey()
Pro odemknutí plné funkce Aspose.OCR.Připravte svůj skenovaný PDF:- Ujistěte se, že skenované PDF jsou dobré kvality pro lepší přesnost rozpoznáván.
Krok za krokem průvodce: Konvertovat skenované PDF do vyhledatelného textu
Krok 1: Vytvořte si licenci
Začněte tím, že konfigurujete licenci Aspose.OCR pro odemknutí všech funkc.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Krok 2: Stáhněte skenovaný PDF do OCR vstupního objektu
Následně stáhněte skenovaný PDF do OcrInput objektu, abyste mohli zahájit proces OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Krok 3: Nastavení motoru OCR pro rozpoznání
Nastavení motoru OCR a nastavení jakýchkoli rozpoznávacích nastavení, jako je jazyk a přesnost.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Krok 4: Odstraňte a odstraňte uznávaný text
Nyní extrahujte text z naskenovaného PDF pomocí motoru OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Krok 5: Vyzkoušejte vyhledávaný PDF
Ujistěte se, že extrahovaný text je vyhledatelný a editovatelný testováním výstupu v prohlížeči PDF nebo editoru.
Společné problémy a fixy
Nízká OCR přesnost
- Rozhodnutí: Ujistěte se, že skenovaný PDF je vysoce kvalitní (nejméně 300 DPI), aby se zlepšily výsledky rozpoznáván.
• Nepodporované fonty
- Rozhodnutí: Ujistěte se, že správný jazyk je nastaven v nastavení OCR pro přesné rozpoznávání textu, zejména pro ne-latinské znaky.
Pomalé výkony pro velké PDF
- Rozhodnutí: Pro velké PDF zpracujte dokument v menších částech nebo stránkách, abyste snížili používání paměti a urychlili proces.