Kā izrakstīt tekstu no skenētiem PDF ar Aspose.OCR

Izņemt tekstu no skenēta vai attēla balstīta PDF Ar Aspose.OCR Scanned PDF to Text for .NET, jūs varat automatizēt šo procesu, konvertējot PDF uz meklējamiem un rediģējamajiem teksta ar tikai dažām koda līnijām.

Reālā pasaules problēma

Organizācijas bieži saņem līgumus, ziņojumus vai arhīvus kā skenētas PDF. Manuāli kopējot tekstu vai meklējot šos dokumentus ir nogurums un kļūdas, palēninot atbilstību, arhivēšanas un digitālās transformācijas projektus.

Risinājumu pārskats

Aspose.OCR for .NET ļauj apstrādāt skenētus PDF failus – pārvēršot tos teksta vai meklējamā PDF, padarot informāciju pieejamu, indeksējamu un gatavu digitālajiem darba plūsmiem.

Prerequisites

Pirms sākat, pārliecinieties, ka jums ir:

Visual Studio 2019 vai vēlāk
.NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
Aspose.OCR par .NET no NuGet
C# zināšanas

PM> Install-Package Aspose.OCR

Step-by-step īstenošana

1. solis: Uzstādīt un konfigurēt Aspose.OCR

Pievienojiet NuGet paketi un atsauci uz Aspose.OCR:

using Aspose.OCR;

2. solis: Pievienojiet skanētos PDF failus

Izveidojiet OcrInput objektu PDF ievadīšanai un pievienojiet skanētos PDF failus.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

3. solis: Iestatīt atpazīšanas iestatījumus

Konfigurējiet valodu un citus atpazīšanas iestatījumus, lai atbilstu jūsu dokumentiem.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

4. solis: Veicināt atpazīšanas procesu

Atzīt tekstu no jūsu skenētiem PDF:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. solis: saglabāt vai eksportēt atpazīstamo tekstu

Eksportēt atpazīto tekstu failos vai konvertēt rezultātus meklējamiem PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

6. solis: pievienojiet kļūdu apstrādi

Wrap atpazīšanu mēģiniet / nokļūst bloks, lai nodrošinātu izturību.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. solis: Optimizējiet lielas vai vairāku lapu PDF

Pārstrādā PDF lapu pēc lapas milzīgiem failiem
Izmanto augstas kvalitātes skenēšanu, lai iegūtu labākus rezultātus
Batch process paralēli lielām kolekcijām

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8. solis: pilns darba piemērs

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Izmantojiet gadījumus un pieteikumus

Digitālā arhīva

Konvertēt visas skanēto dokumentu bibliotēkas meklējamiem, indeksojošiem failiem atbilstības un zināšanu pārvaldības nolūkā.

Juridiskā un līguma pārvaldība

Izvadīt līguma noteikumus vai nosacījumus no PDF, lai pārskatītu, automātu vai digitālo parakstu.

Streamlined dokumentu meklēšana

Ieteicams ātri meklēt pilnīgu tekstu arhīvos, zināšanu bāzēs vai gadījumu failos.

Kopīgi izaicinājumi un risinājumi

1. izaicinājums: zemas kvalitātes vai izslēgta skenēšana

Rīze: Ja iespējams, izmantojiet iepriekš apstrādātus filtrus un augstas kvalitātes skenēšanu.

2. izaicinājums: daudzu valodu PDF

Rīze: Iestatīt valodu atpazīšanas iestatījumos vai procesā ar vairākiem valodas opcijām.

3. problēma: ļoti lieli PDF faili

Rīze: Procesi tiek veikti vienā vai pa lapai un tiek uzraudzīta atmiņas izmantošana.

Darbības apsvērumi

Izmantojiet optimālu DPI (300+) skenētiem PDF failiem
Batch process par labāko caurlaidību
Ievietojiet OCR priekšmetus un slēgtus failus

Labākās prakses

Validējiet OCR iznākumu pirms turpmākas automatizācijas
Organizēt un kopēt oriģinālus PDF failus
Izmantojiet pareizo SaveFormat jūsu darba plūsmai
Regulāri atjaunina Aspose.OCR jaunām PDF funkcijām

Augstākie scenāriji

1. scenārijs: no PDF izņemt tikai konkrētus lapas

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

2. scenārijs: eksportēšana vairākos formātos

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR for .NET ļauj pārvērst skenētos PDF failus darbojamā teksta un meklējamā failiem – noņemot manuālo ievadījumu un padarot informāciju pieejamu visai jūsu organizācijai.

Plašāka informācija un piemēri, skatiet Aspose.OCR par .NET API atsauci .