Cum să convertiți PDF-urile scanate în documente text de căutare în .NET
PDF-urile scanate sunt de obicei fișiere non-editabile, bazate pe imagini, ceea ce face dificil să se extrage text din ele. Cu toate acestea, cu Aspose.OCR pentru .NET, puteți transforma rapid aceste pdf-uri scannate în documente text editabile și de căutare care fac mai ușor recuperarea datelor și gestionarea documentelor.
De ce ar trebui să convertiți PDF-urile scanate în text de căutare?
Accesibilitate îmbunătățită:- PDF-urile scanate pot fi convertite în text care poate fi căutat și editat, permițând o mai bună accesibilitate la conținut.
Organizația de date:- După conversie, textul poate fi organizat, manipulat și reutilizat în diferite formate, cum ar fi Word, Excel sau text plain.
Rezervarea conținutului:- Aspose.OCR se asigură că imaginile originale și layout-ul sunt păstrate în timp ce textul este extras, oferind atât conținutul, cât și contextul.
Previziuni: Pregătiți-vă pentru conversia scanată PDF
Înainte de a începe procesul de extragere a textului din PDF-urile scanate, asigurați-vă că:
Instalați Aspose.OCR pentru .NET:- Instalați biblioteca necesară folosind NuGet cu comanda:
dotnet add package Aspose.OCR
Configurarea licenței:- Obtain and configure a metered license using the
SetMeteredKey()
method to unlock all features.Pregătiți PDF-urile scanate:- Asigurați-vă că PDF-urile scanate sunt de bună calitate (300 DPI sau mai mare) pentru cele mai bune rezultate OCR.
Ghid pas cu pas pentru a transforma PDF-urile scanate în text
Pasul 1: Configurați licența dvs.
Începeți prin configurarea licenței Aspose.OCR pentru a vă asigura accesul complet la caracteristici.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Pasul 2: Încărcați PDF-ul scanat în obiectul de intrare OCR
Încărcați fișierul PDF scanat în motorul OCR pentru recunoașterea textului.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Pasul 3: Configurați motorul OCR pentru recunoaștere
Setarea motorului OCR pentru a optimiza extragerea textului din PDF scanat.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Pasul 4: Extrageți și salvați textul recunoscut
Procesarea PDF-ului scanat pentru a extrage textul și a-l exporta într-un fișier.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Pasul 5: Testarea textului recunoscut
După extracție, verificați precizia recunoașterii textului verificând fișierul de ieșire sau afișând-o pe consola.
Probleme și fixări comune
Precizia OCR scăzută
- Soluție: Asigurați-vă că calitatea PDF scanată este ridicată (300 DPI sau mai mult) pentru o mai bună precizie a recunoașterii.
Recunoaşterea necorespunzătoare a limbii
- Soluție: specificați în mod explicit setările de limbă în RecognitionSettings pentru rezultate mai bune, în special pentru caractere non-latine.
Performanță lentă pentru fișierele mari
- Soluție: Procesarea PDF-urilor mari în bucăți sau optimizarea utilizării memorii pentru a accelera procesul OCR.