Jak extrahovat text z skenovaných PDF s Aspose.OCR
Odstranění textu z skenovaných nebo obrazových PDF souborů, které se používají k vyžadování složitých pracovních toků nebo nákladné manuální práce. s Aspose.OCR Scanned PDF do Text pro .NET, můžete tento proces automatizovat, konverzi PDF na vyhledatelný a editovatelný text s pouhými řádky kódu.
Reálný světový problém
Organizace často obdrží smlouvy, zprávy nebo archivy jako skenované PDF. Manuální kopírování textu nebo vyhledávání uvnitř těchto dokumentů je nudné a chybové, zpomaluje dodržování, archivování a digitální transformace projektů.
Řešení přehled
Aspose.OCR pro .NET vám umožní sbírat procesy skenovaných PDF - přeměňovat je do textových nebo vyhledatelných PDF, dělat informace přístupné, indexovatelné a připravené pro digitální pracovní toky.
Předpoklady
Než začnete, ujistěte se, že máte:
- Visual Studio 2019 nebo novější
- .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
- Aspose.OCR pro .NET z NuGet
- Základní znalosti C#
PM> Install-Package Aspose.OCR
krok za krokem implementace
Krok 1: Instalace a nastavení ASPOSE.OCR
Přidejte balíček NuGet a odkaz Aspose.OCR:
using Aspose.OCR;
Krok 2: Přidejte skenované PDF soubory
Vytvořte OcrInput objekt pro PDF vstup a přidejte skenované PDF soubory.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Krok 3: Nastavení rozpoznání
Nastavení jazyka a jiných nastavení rozpoznávání, které odpovídají vašim dokumentům.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Krok 4: Proveďte proces uznávání
Rozpoznat text z vašeho skenovaného PDF:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Krok 5: Uložit nebo vyvážet uznávaný text
Export rozpoznaného textu do souborů, nebo převést výsledky do vyhledatelných PDF.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Krok 6: Přidejte chybové řešení
Vložte rozpoznání do try/catch bloku pro robustnost.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Krok 7: Optimalizace pro velké nebo vícestránkové PDF
- Zpracování PDFs stránky po stránce pro velké soubory
- Použijte vysoce kvalitní skenování pro nejlepší výsledky
- Paralelní batchový proces pro velké sbírky
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Krok 8: Kompletní pracovní příklad
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Použití případů a aplikací
Digitální archivace
Konvertovat celé knihovny skenovaných dokumentů do vyhledatelných, indexovatelných souborů pro dodržování a řízení znalostí.
Právní a smluvní řízení
Výpis smluvních doložek nebo podmínek z PDF pro přezkum, automatizaci nebo digitální podpis.
Streamline vyhledávání dokumentů
Umožňuje rychlé vyhledávání v plném textu v archivech, znalostech nebo souborech případů.
Společné výzvy a řešení
Výzva 1: nízkokvalitní nebo zkreslené skenování
Rozhodnutí: Kde je to možné, použijte předběžné filtry a vysoce kvalitní skenování.
Výzva 2: Vícejazyčné PDF
Rozhodnutí: Nastavení jazyka v rozpoznávacích nastaveních nebo procesech s několika jazykovými možnostmi.
Výzva 3: Velmi velké PDF soubory
Rozhodnutí: Proces v balíčkách nebo na stránce a monitorování používání paměti.
Úvahy o výkonu
- Optimální DPI (300+) pro skenované PDF
- Batchový proces pro nejlepší průchod
- Objekty OCR a uzavřené soubory
Nejlepší postupy
- OCR ověření před další automatizací
- Organizace a zálohování originálních PDF souborů
- Použijte správný SaveFormat pro váš pracovní tok
- Pravidelně aktualizovat Aspose.OCR pro nové funkce PDF
Pokročilé scénáře
Scénář 1: Odstranit pouze konkrétní stránky z PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scénář 2: Vývoz do více formátů
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
závěr
Aspose.OCR pro .NET umožňuje konverzi skenovaných PDF do aktivovatelných textových a vyhledatelných souborů – odstranění manuálního vstupu a zpřístupnění informací pro celou vaši organizaci.
Pro více detailů a příkladů se podívejte na Aspose.OCR pro .NET API Reference .