Jak extrahovat text z skenovaných PDF s Aspose.OCR

Jak extrahovat text z skenovaných PDF s Aspose.OCR

Odstranění textu z skenovaných nebo obrazových PDF souborů, které se používají k vyžadování složitých pracovních toků nebo nákladné manuální práce. s Aspose.OCR Scanned PDF do Text pro .NET, můžete tento proces automatizovat, konverzi PDF na vyhledatelný a editovatelný text s pouhými řádky kódu.

Reálný světový problém

Organizace často obdrží smlouvy, zprávy nebo archivy jako skenované PDF. Manuální kopírování textu nebo vyhledávání uvnitř těchto dokumentů je nudné a chybové, zpomaluje dodržování, archivování a digitální transformace projektů.

Řešení přehled

Aspose.OCR pro .NET vám umožní sbírat procesy skenovaných PDF - přeměňovat je do textových nebo vyhledatelných PDF, dělat informace přístupné, indexovatelné a připravené pro digitální pracovní toky.

Předpoklady

Než začnete, ujistěte se, že máte:

  • Visual Studio 2019 nebo novější
  • .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
  • Aspose.OCR pro .NET z NuGet
  • Základní znalosti C#
PM> Install-Package Aspose.OCR

krok za krokem implementace

Krok 1: Instalace a nastavení ASPOSE.OCR

Přidejte balíček NuGet a odkaz Aspose.OCR:

using Aspose.OCR;

Krok 2: Přidejte skenované PDF soubory

Vytvořte OcrInput objekt pro PDF vstup a přidejte skenované PDF soubory.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Krok 3: Nastavení rozpoznání

Nastavení jazyka a jiných nastavení rozpoznávání, které odpovídají vašim dokumentům.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Krok 4: Proveďte proces uznávání

Rozpoznat text z vašeho skenovaného PDF:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Uložit nebo vyvážet uznávaný text

Export rozpoznaného textu do souborů, nebo převést výsledky do vyhledatelných PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Krok 6: Přidejte chybové řešení

Vložte rozpoznání do try/catch bloku pro robustnost.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizace pro velké nebo vícestránkové PDF

  • Zpracování PDFs stránky po stránce pro velké soubory
  • Použijte vysoce kvalitní skenování pro nejlepší výsledky
  • Paralelní batchový proces pro velké sbírky
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Krok 8: Kompletní pracovní příklad

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použití případů a aplikací

Digitální archivace

Konvertovat celé knihovny skenovaných dokumentů do vyhledatelných, indexovatelných souborů pro dodržování a řízení znalostí.

Právní a smluvní řízení

Výpis smluvních doložek nebo podmínek z PDF pro přezkum, automatizaci nebo digitální podpis.

Streamline vyhledávání dokumentů

Umožňuje rychlé vyhledávání v plném textu v archivech, znalostech nebo souborech případů.

Společné výzvy a řešení

Výzva 1: nízkokvalitní nebo zkreslené skenování

Rozhodnutí: Kde je to možné, použijte předběžné filtry a vysoce kvalitní skenování.

Výzva 2: Vícejazyčné PDF

Rozhodnutí: Nastavení jazyka v rozpoznávacích nastaveních nebo procesech s několika jazykovými možnostmi.

Výzva 3: Velmi velké PDF soubory

Rozhodnutí: Proces v balíčkách nebo na stránce a monitorování používání paměti.

Úvahy o výkonu

  • Optimální DPI (300+) pro skenované PDF
  • Batchový proces pro nejlepší průchod
  • Objekty OCR a uzavřené soubory

Nejlepší postupy

  • OCR ověření před další automatizací
  • Organizace a zálohování originálních PDF souborů
  • Použijte správný SaveFormat pro váš pracovní tok
  • Pravidelně aktualizovat Aspose.OCR pro nové funkce PDF

Pokročilé scénáře

Scénář 1: Odstranit pouze konkrétní stránky z PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scénář 2: Vývoz do více formátů

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

závěr

Aspose.OCR pro .NET umožňuje konverzi skenovaných PDF do aktivovatelných textových a vyhledatelných souborů – odstranění manuálního vstupu a zpřístupnění informací pro celou vaši organizaci.

Pro více detailů a příkladů se podívejte na Aspose.OCR pro .NET API Reference .

 Čeština