Kā izrakstīt tekstu no skenētiem PDF failām .NET, izmantojot Aspose.OCR

Kā izrakstīt tekstu no skenētiem PDF failām .NET, izmantojot Aspose.OCR

Scanned PDFs bieži ir grūti strādāt ar, jo tie ir būtībā tikai teksta attēli. Konvertējot šīs attēlus uz meklējamiem, rediģējamajiem tekstdokumentiem atver iespēju pasauli dokumentu pārvaldībai un satura pieejamībai. Ar Aspose.OCR for .NET , jūs varat konvertēt skanētos PDF dokumentus pilnībā meklētiem dokumentiem un saglabājot oriģinālās fotogrāfijas.

Kāpēc OCR (Optical Character Recognition) ir svarīgi skenētiem PDF

  • Datu ekstrakcija:- OCR ļauj pārvērst skenēto tekstu mašīnas lasāmos datos, kurus var rediģēt un indeksēt.

  • meklēšanas iespējas:- Pārvēršot skenētos PDF dokumentus meklējamiem dokumentiem, jūs varat ātri atrast atbilstošu informāciju, neizmantojot manuālu meklēšanu caur lapām.

    • Produktivitātes uzlabošana:- Ietaupiet laiku, automātiski pārveidojot skenētos dokumentus rediģējamos formātos, piemēram, Word vai Excel.

Priekšnoteikumi: Settings for Scanned PDF Text Extraction

Pirms sākat izņemt tekstu no skenētiem PDF, pārliecinieties, ka sekojošie soļi ir pabeigti:

  • Install Aspose.OCR par .NET :- Pievienojiet Aspose.OCR savam projektam, izmantojot NuGet: dotnet add package Aspose.OCR

  • Pieņemt izmērītās licences :- Iestatīt savu mērīto licences, lai atslēgtu visas Aspose.OCR bibliotēkas funkcijas, izmantojot SetMeteredKey().

  • Pārveidojiet savus skenētos PDF failus :- Pārliecinieties, ka jūsu skenētie PDF ir augstas kvalitātes. labāk kvalitatīvi rezultāti precīzākajā OCR.

Pakāpeniski ceļvedis: Teksta ekstrakcija no skenētiem PDF

1. posms: nepieciešamās bibliotēkas instalēšana

Sāciet, instalējot Aspose.OCR for .NET savā projektā.

dotnet add package Aspose.OCR

2. solis: iestatīt savas licences atslēgas

Pirms procedūras, konfigurējiet Aspose.OCR licenci, lai atslēgtu visas funkcijas.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

3. solis: Lejupielādēt skenēto PDF uz OCR ieejas objektu

Jums būs nepieciešams lejupielādēt skenēto PDF OcrInput objekts. Aspose.OCR atbalsta vairāku PDF lapu skenēšanu.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

4. solis: Skanētā PDF apstrāde, izmantojot OCR dzinēju

Ar lejupielādētu PDF, pārsūtīt to uz Aspose OCR dzinēju atpazīšanas vajadzībām.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

5. solis: Izslēdziet atpazīto tekstu vai glabājiet to

Kad OCR dzinējs apstrādā PDF, jūs varat vai nu izdot atpazīto tekstu tieši vai saglabāt to failu.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

6. solis: testēt un optimizēt OCR rezultātus

Pēc teksta ekstrakcijas, pārbaudiet iznākumu precizitātes nolūkā. ja nepieciešams, varat noklikšķināt uz OCR iestatījumiem, lai uzlabotu rezultātus dažādiem dokumentu izkārtojumiem.

Kopīgas problēmas un fiksācijas

Neliela OCR precizitāte

  • Lēmums : Pārliecinieties, ka skenētais PDF kvalitāte ir augsta.

Neatbalstītie fonti

  • Lēmums : nodrošināt pareizo valodas iestatījumu OCR opcijās, lai uzlabotu ne-latīņu rakstzīmju atpazīstamību.

3. lēna veiktspēja

  • Rīkojums : sadalīt PDF mazākajās daļās vai lapās, lai veiktu ātrāku apstrādi, it īpaši lieliem dokumentiem.
 Latviski