Cum să convertiți PDF-urile scanate în documente text de căutare în .NET
PDF-urile scanate sunt adesea provocatoare pentru a lucra cu ele, deoarece sunt în esență doar imagini de text. Convertirea acestor imaginile în documente text pe care le puteți căuta și edita deschide o lume de posibilități de gestionare a documentelor și accesibilitate a conținutului. Aspose.OCR pentru .NET vă permite să convertiți documentele scânate într-un document complet de căutare, păstrând în același timp imaginea originală.
De ce să convertiți PDF-urile scanate în documente text de căutare?
Accesibilitate:- Faceți conținutul scanat căutat, făcând ușor să găsiți informații fără a citi manual prin intermediul documentului.
Editare a conținutului:- După conversie în text, conținutul poate fi editat, actualizat sau reutilizat în alte formate.
Eficiență:- Scăderea timpului prin automatizarea procesului de convertire a PDF-urilor scanate în documente text pe deplin accesibile.
Previziuni: Set-up pentru scanate PDF Text Extraction
Înainte de a extrage textul din PDF-urile scanate, urmați aceste pași pentru a vă asigura că totul este setat:
Instalați Aspose.OCR pentru .NET:- Adăugați Aspose.OCR la proiectul dvs. folosind NuGet:
dotnet add package Aspose.OCR
Obțineți licența dvs:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Pregătiți PDF-ul scanat:- Asigurați-vă că PDF-urile scanate sunt de bună calitate pentru o mai bună precizie a recunoașterii.
Ghid pas cu pas: Convertarea PDF-urilor scanate în text de căutare
Pasul 1: Introduceți licența dvs.
Începeți prin configurarea licenței Aspose.OCR pentru a dezactiva toate caracteristicile.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Pasul 2: Încărcați PDF-ul scanat în obiectul de intrare OCR
Apoi, încărcați PDF-ul scanat în obiectul OcrInput pentru a începe procesul OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Pasul 3: Configurați motorul OCR pentru recunoaștere
Configurați motorul OCR și configurați orice setări de recunoaștere, cum ar fi limba și precizia.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Pasul 4: Extrageți și scoateți textul recunoscut
Acum, extrageți textul din PDF scanat folosind motorul OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Pasul 5: Testarea PDF-ului căutat
Asigurați-vă că textul extras este căutat și editat prin testarea rezultatului într-un vizualizator PDF sau editor.
Probleme și fixări comune
Precizia OCR scăzută
- Soluție: Asigurați-vă că PDF-ul scanat este de înaltă calitate (cel puțin 300 DPI) pentru a îmbunătăți rezultatele de recunoaștere.
2 Fonturi nesuportate
- Soluție: Asigurați-vă că limbajul corect este setat în setările OCR pentru recunoașterea corectă a textului, în special pentru caractere non-latine.
Performanță lentă pentru PDF-uri mari
- Soluție: Pentru PDF-uri mari, procesați documentul în bucăți sau pagini mai mici pentru a reduce utilizarea memoriei și a accelera procesul.