Kā izrakstīt tekstu no skenētiem PDF ar Aspose.OCR

Kā izrakstīt tekstu no skenētiem PDF ar Aspose.OCR

Izņemot tekstu no skenētiem vai attēla balstītajiem PDF failiem, kas tiek izmantoti, lai pieprasītu sarežģītus darba plūsmas vai dārgu manuālo darbu. ar Aspose.OCR Scanned PDF to Text for .NET, jūs varat automātiski šo procesu, pārvēršot PDF uz meklējamu un rediģējošu tekstu ar tikai dažām koda līnijām.

Reālā pasaules problēma

Organizācijas bieži saņem līgumus, ziņojumus vai arhīvus kā skenētas PDF. Manuāli kopējot tekstu vai meklējot šos dokumentus ir nogurums un kļūdas, palēninot atbilstību, arhivēšanas un digitālās transformācijas projektus.

Risinājumu pārskats

Aspose.OCR for .NET ļauj apstrādāt skenētus PDF failus – pārvēršot tos teksta vai meklējamā PDF, padarot informāciju pieejamu, indeksējamu un gatavu digitālajiem darba plūsmiem.

Prerequisites

Pirms sākat, pārliecinieties, ka jums ir:

  • Visual Studio 2019 vai vēlāk
  • .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
  • Aspose.OCR par .NET no NuGet
  • C# zināšanas
PM> Install-Package Aspose.OCR

Step-by-step īstenošana

1. solis: Uzstādīt un konfigurēt Aspose.OCR

Pievienojiet NuGet paketi un atsauci uz Aspose.OCR:

using Aspose.OCR;

2. solis: Pievienojiet skanētos PDF failus

Izveidojiet OcrInput objektu PDF ievadīšanai un pievienojiet skanētos PDF failus.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

3. solis: Iestatīt atpazīšanas iestatījumus

Konfigurējiet valodu un citus atpazīšanas iestatījumus, lai atbilstu jūsu dokumentiem.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

4. solis: Veicināt atpazīšanas procesu

Atzīt tekstu no jūsu skenētiem PDF:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

5. solis: saglabāt vai eksportēt atpazīstamo tekstu

Eksportēt atpazīto tekstu failos vai konvertēt rezultātus meklējamiem PDF.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

6. solis: pievienojiet kļūdu apstrādi

Wrap atpazīšanu mēģiniet / nokļūst bloks, lai nodrošinātu izturību.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7. solis: Optimizējiet lielas vai vairāku lapu PDF

  • Pārstrādā PDF lapu pēc lapas milzīgiem failiem
  • Izmanto augstas kvalitātes skenēšanu, lai iegūtu labākus rezultātus
  • Batch process paralēli lielām kolekcijām
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

8. solis: pilns darba piemērs

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Izmantojiet gadījumus un pieteikumus

Digitālā arhīva

Konvertēt visas skanēto dokumentu bibliotēkas meklējamiem, indeksojošiem failiem atbilstības un zināšanu pārvaldības nolūkā.

Juridiskā un līguma pārvaldība

Izvadīt līguma noteikumus vai nosacījumus no PDF, lai pārskatītu, automātu vai digitālo parakstu.

Streamlined dokumentu meklēšana

Ieteicams ātri meklēt pilnīgu tekstu arhīvos, zināšanu bāzēs vai gadījumu failos.

Kopīgi izaicinājumi un risinājumi

1. izaicinājums: zemas kvalitātes vai izslēgta skenēšana

Rīze: Ja iespējams, izmantojiet iepriekš apstrādātus filtrus un augstas kvalitātes skenēšanu.

2. izaicinājums: daudzu valodu PDF

Rīze: Iestatīt valodu atpazīšanas iestatījumos vai procesā ar vairākiem valodas opcijām.

3. problēma: ļoti lieli PDF faili

Rīze: Procesi tiek veikti vienā vai pa lapai un tiek uzraudzīta atmiņas izmantošana.

Darbības apsvērumi

  • Izmantojiet optimālu DPI (300+) skenētiem PDF failiem
  • Batch process par labāko caurlaidību
  • Ievietojiet OCR priekšmetus un slēgtus failus

Labākās prakses

  • Validējiet OCR iznākumu pirms turpmākas automatizācijas
  • Organizēt un kopēt oriģinālus PDF failus
  • Izmantojiet pareizo SaveFormat jūsu darba plūsmai
  • Regulāri atjaunina Aspose.OCR jaunām PDF funkcijām

Augstākie scenāriji

1. scenārijs: no PDF izņemt tikai konkrētus lapas

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

2. scenārijs: eksportēšana vairākos formātos

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR for .NET ļauj pārvērst skenētos PDF failus darbojamā teksta un meklējamā failiem – noņemot manuālo ievadījumu un padarot informāciju pieejamu visai jūsu organizācijai.

Plašāka informācija un piemēri, skatiet Aspose.OCR par .NET API atsauci .

 Latviski