Cum să convertiți PDF-urile scanate în documente text de căutare în .NET

Cum să convertiți PDF-urile scanate în documente text de căutare în .NET

PDF-urile scanate sunt adesea provocatoare pentru a lucra cu ele, deoarece sunt în esență doar imagini de text. Convertirea acestor imaginile în documente text pe care le puteți căuta și edita deschide o lume de posibilități de gestionare a documentelor și accesibilitate a conținutului. Aspose.OCR pentru .NET vă permite să convertiți documentele scânate într-un document complet de căutare, păstrând în același timp imaginea originală.

De ce să convertiți PDF-urile scanate în documente text de căutare?

  • Accesibilitate:- Faceți conținutul scanat căutat, făcând ușor să găsiți informații fără a citi manual prin intermediul documentului.

  • Editare a conținutului:- După conversie în text, conținutul poate fi editat, actualizat sau reutilizat în alte formate.

  • Eficiență:- Scăderea timpului prin automatizarea procesului de convertire a PDF-urilor scanate în documente text pe deplin accesibile.

Previziuni: Set-up pentru scanate PDF Text Extraction

Înainte de a extrage textul din PDF-urile scanate, urmați aceste pași pentru a vă asigura că totul este setat:

  • Instalați Aspose.OCR pentru .NET:- Adăugați Aspose.OCR la proiectul dvs. folosind NuGet: dotnet add package Aspose.OCR

  • Obțineți licența dvs:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.

  • Pregătiți PDF-ul scanat:- Asigurați-vă că PDF-urile scanate sunt de bună calitate pentru o mai bună precizie a recunoașterii.

Ghid pas cu pas: Convertarea PDF-urilor scanate în text de căutare

Pasul 1: Introduceți licența dvs.

Începeți prin configurarea licenței Aspose.OCR pentru a dezactiva toate caracteristicile.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Pasul 2: Încărcați PDF-ul scanat în obiectul de intrare OCR

Apoi, încărcați PDF-ul scanat în obiectul OcrInput pentru a începe procesul OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Pasul 3: Configurați motorul OCR pentru recunoaștere

Configurați motorul OCR și configurați orice setări de recunoaștere, cum ar fi limba și precizia.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Pasul 4: Extrageți și scoateți textul recunoscut

Acum, extrageți textul din PDF scanat folosind motorul OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Pasul 5: Testarea PDF-ului căutat

Asigurați-vă că textul extras este căutat și editat prin testarea rezultatului într-un vizualizator PDF sau editor.

Probleme și fixări comune

Precizia OCR scăzută

  • Soluție: Asigurați-vă că PDF-ul scanat este de înaltă calitate (cel puțin 300 DPI) pentru a îmbunătăți rezultatele de recunoaștere.

2 Fonturi nesuportate

  • Soluție: Asigurați-vă că limbajul corect este setat în setările OCR pentru recunoașterea corectă a textului, în special pentru caractere non-latine.

Performanță lentă pentru PDF-uri mari

  • Soluție: Pentru PDF-uri mari, procesați documentul în bucăți sau pagini mai mici pentru a reduce utilizarea memoriei și a accelera procesul.
 Română