Ako extrahovať text z skenovaných PDF s Aspose.OCR

Odstránenie textu zo skenovaného alebo obrázkového PDF súbory používané na vyžadovanie zložitých pracovných tokov alebo drahých manuálnych prác. s Aspose.OCR Scanned PDF do textu pre .NET, môžete tento proces automatizovať, konverziou PDF k vyhľadávateľnému a editovateľnému texte len s niekoľkými riadkami kódu.

Reálny svetový problém

Organizácie často dostávajú zmluvy, správy alebo archívy ako skenované PDF. Manuálne kopírovanie textu alebo vyhľadávanie vnútri týchto dokumentov je úzkostné a chybové, spomalenie dodržiavania, archivovanie a digitálne transformácie projektov.

Prehľad riešenia

Aspose.OCR pre .NET vám umožňuje spárovať proces skenovaných PDF-ov – obrátiť ich do textových alebo vyhľadávateľných PDF, aby informácie boli prístupné, indexovateľné a pripravené na digitálne pracovné toky.

Predpoklady

Predtým ako začnete, uistite sa, že máte:

Visual Studio 2019 alebo neskôr
.NET 6.0 alebo novší (alebo .NET Framework 4.6.2+)
Aspose.OCR pre .NET od NuGet
Základné C# vedomosti

PM> Install-Package Aspose.OCR

krok za krokom implementácia

Krok 1: Inštalácia a konfigurácia Aspose.OCR

Pridajte balík NuGet a odkaz Aspose.OCR:

using Aspose.OCR;

Krok 2: Pridať skenované PDF súbory

Vytvorte objekt OcrInput pre PDF vstup a pridajte skenované PDF súbory.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Krok 3: Nastavenie rozpoznávania

Nastaviť jazyk a iné nastavenia rozpoznávania, aby vyhovovali vašim dokumentom.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Krok 4: Spustiť proces uznávania

Rozpoznávanie textu z skenovaných PDF:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Krok 5: Uložiť alebo exportovať uznávaný text

Export rozpoznaného textu do súborov, alebo konverziu výsledkov do vyhľadávateľných PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Krok 6: Pridať chybové riešenie

Vráťte rozpoznávanie v try/catch bloku pre robustnosť.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Krok 7: Optimalizácia veľkých alebo viacstránkových PDF

Prepracovať PDF stránky podľa stránky pre veľké súbory
Použite vysoko kvalitné skenovanie pre najlepšie výsledky
Batch proces v paralele pre veľké zbierky

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Krok 8: Kompletný pracovný príklad

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Použitie prípadov a aplikácií

Digitálne archívy

Konvertovať celé knižnice skenovaných dokumentov do vyhľadávateľných, indexovateľných súborov pre dodržiavanie a riadenie vedomostí.

Právne a zmluvné riadenie

Odstráňte zmluvné podmienky alebo podmienky z PDF pre preskúmanie, automatizáciu alebo digitálne podpísanie.

Streamlined dokument vyhľadávanie

Umožňuje rýchle vyhľadávanie plného textu v archívoch, znalostných základoch alebo súboroch prípadov.

Spoločné výzvy a riešenia

Výzva 1: Nízka kvalita alebo skreslené skenovanie

Riešenie: Ak je to možné, použite predbežné filtre a vysoko kvalitné skenovanie.

Výzva 2: Viacjazyčné PDF

Riešenie: Nastavenie jazyka v rozpoznávacích nastaveniach alebo procesoch s viacerými jazykovými možnosťami.

Výzva 3: Veľké PDF súbory

Riešenie: Proces v balíkoch alebo na stránke a monitorovanie používania pamäte.

Preskúmanie výkonnosti

Optimálny DPI (300+) pre skenované PDF
Batch proces pre najlepší priechod
Umiestnite objekty OCR a uzavreté súbory

Najlepšie postupy

Validácia výstupu OCR pred ďalšou automatizáciou
Zorganizovať a zálohovať originálne PDF súbory
Použite správny SaveFormat pre váš pracovný tok
Pravidelne aktualizovať Aspose.OCR pre nové funkcie PDF

Pokročilé scenáre

Scénár 1: Odstráňte iba špecifické stránky z PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenár 2: Vývoz do viacerých formátov

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Záver

Aspose.OCR pre .NET vám umožňuje premeniť skenované PDF do aktívneho textu a vyhľadávateľných súborov – odstránenie manuálneho vstupu a prístupné informácie pre celú vašu organizáciu.

Pre ďalšie podrobnosti a príklady, pozri Aspose.OCR pre .NET API referencie .