Cum să convertiți PDF-urile scanate în documente text de căutare în .NET

Cum să convertiți PDF-urile scanate în documente text de căutare în .NET

PDF-urile scanate sunt de obicei fișiere non-editabile, bazate pe imagini, ceea ce face dificil să se extrage text din ele. Cu toate acestea, cu Aspose.OCR pentru .NET, puteți transforma rapid aceste pdf-uri scannate în documente text editabile și de căutare care fac mai ușor recuperarea datelor și gestionarea documentelor.

De ce ar trebui să convertiți PDF-urile scanate în text de căutare?

  • Accesibilitate îmbunătățită:- PDF-urile scanate pot fi convertite în text care poate fi căutat și editat, permițând o mai bună accesibilitate la conținut.

  • Organizația de date:- După conversie, textul poate fi organizat, manipulat și reutilizat în diferite formate, cum ar fi Word, Excel sau text plain.

  • Rezervarea conținutului:- Aspose.OCR se asigură că imaginile originale și layout-ul sunt păstrate în timp ce textul este extras, oferind atât conținutul, cât și contextul.

Previziuni: Pregătiți-vă pentru conversia scanată PDF

Înainte de a începe procesul de extragere a textului din PDF-urile scanate, asigurați-vă că:

  • Instalați Aspose.OCR pentru .NET:- Instalați biblioteca necesară folosind NuGet cu comanda: dotnet add package Aspose.OCR

  • Configurarea licenței:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.

  • Pregătiți PDF-urile scanate:- Asigurați-vă că PDF-urile scanate sunt de bună calitate (300 DPI sau mai mare) pentru cele mai bune rezultate OCR.

Ghid pas cu pas pentru a transforma PDF-urile scanate în text

Pasul 1: Configurați licența dvs.

Începeți prin configurarea licenței Aspose.OCR pentru a vă asigura accesul complet la caracteristici.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Pasul 2: Încărcați PDF-ul scanat în obiectul de intrare OCR

Încărcați fișierul PDF scanat în motorul OCR pentru recunoașterea textului.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Pasul 3: Configurați motorul OCR pentru recunoaștere

Setarea motorului OCR pentru a optimiza extragerea textului din PDF scanat.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Pasul 4: Extrageți și salvați textul recunoscut

Procesarea PDF-ului scanat pentru a extrage textul și a-l exporta într-un fișier.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Pasul 5: Testarea textului recunoscut

După extracție, verificați precizia recunoașterii textului verificând fișierul de ieșire sau afișând-o pe consola.

Probleme și fixări comune

Precizia OCR scăzută

  • Soluție: Asigurați-vă că calitatea PDF scanată este ridicată (300 DPI sau mai mult) pentru o mai bună precizie a recunoașterii.

Recunoaşterea necorespunzătoare a limbii

  • Soluție: specificați în mod explicit setările de limbă în RecognitionSettings pentru rezultate mai bune, în special pentru caractere non-latine.

Performanță lentă pentru fișierele mari

  • Soluție: Procesarea PDF-urilor mari în bucăți sau optimizarea utilizării memorii pentru a accelera procesul OCR.
 Română