Cum de a extrage text din PDF-uri scanate în .NET folosind Aspose.OCR

Cum de a extrage text din PDF-uri scanate în .NET folosind Aspose.OCR

PDF-urile scanate sunt adesea provocatoare pentru a lucra cu ele, deoarece sunt în esență doar imagini de text. Convertirea acestor imaginile în documente text pe care le puteți căuta și edita deschide o lume de posibilități de gestionare a documentelor și accesibilitate a conținutului. Aspose.OCR pentru .NET vă permite să convertiți documentele scânate într-un document complet de căutare, păstrând în același timp imaginea originală.

De ce OCR (Recunoașterea caracterului optic) este importantă pentru PDF-urile scanate

  • Extracție de date:- OCR vă permite să convertiți textul scanat în date ce pot fi citite pe mașină, care pot fi editate și indexate.

  • Capacitatea de a căuta:- Prin transformarea PDF-urilor scanate în documente care pot fi căutate, puteți găsi rapid informații relevante fără căutarea manuală prin pagini.

  • Creșterea productivității:- Scăderea timpului prin automatizarea conversiei documentelor scanate în formate editabile, cum ar fi Word sau Excel.

Previziuni: Set-up pentru scanate PDF Text Extraction

Înainte de a începe să extrageți text din PDF-urile scanate, asigurați-vă că următoarele pași sunt complete:

  • Instalați Aspose.OCR pentru .NET:- Adăugați Aspose.OCR la proiectul dvs. folosind NuGet: dotnet add package Aspose.OCR

  • Obțineți o Licență Metrată:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Pregătiți PDF-urile scanate:- Asigurați-vă că PDF-urile scanate sunt de înaltă calitate. rezultate de calitate mai bună în OCR mai precis.

Ghid pas cu pas: Extractarea textului din PDF-urile scanate

Pasul 1: Instalarea bibliotecii necesare

Începeți prin instalarea Aspose.OCR pentru .NET în proiectul dvs. Puteți face acest lucru direct de la NuGet.

dotnet add package Aspose.OCR

Pasul 2: Introduceți cheile de licență

Înainte de procedură, configurați licența pentru Aspose.OCR pentru a dezactiva toate caracteristicile.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Pasul 3: Încărcați PDF-ul scanat în obiectul de intrare OCR

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Pasul 4: Procesarea PDF-ului scanat folosind motorul OCR

Cu PDF încărcat, treceți-l la motorul Aspose OCR pentru recunoaștere.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Pasul 5: scoateți textul recunoscut sau salvați-l

Odată ce motorul OCR prelucrează PDF-ul, puteți exporta textul recunoscut direct sau îl salvați într-un fișier.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Pasul 6: Testarea și optimizarea rezultatelor OCR

După extractarea textului, testați rezultatul pentru precizie. dacă este necesar, puteți schimba setările OCR pentru a îmbunătăți rezultatele pentru diferite layout-uri de documente.

Probleme și fixări comune

Precizia OCR scăzută

  • Soluție: Asigurați-vă că calitatea PDF-ului scanat este ridicată.

2 Fonturi nesuportate

  • Soluție: Asigurați setarea corectă a limbii în opțiunile OCR pentru a îmbunătăți recunoașterea caracterelor non-latine.

3. performanță lentă

  • Soluție: Deschideți PDF-ul în bucăți sau pagini mai mici pentru o prelucrare mai rapidă, mai ales pentru documente mari.
 Română