Cum de a extrage text din PDF-uri scanate în .NET folosind Aspose.OCR
PDF-urile scanate sunt adesea provocatoare pentru a lucra cu ele, deoarece sunt în esență doar imagini de text. Convertirea acestor imaginile în documente text pe care le puteți căuta și edita deschide o lume de posibilități de gestionare a documentelor și accesibilitate a conținutului. Aspose.OCR pentru .NET vă permite să convertiți documentele scânate într-un document complet de căutare, păstrând în același timp imaginea originală.
De ce OCR (Recunoașterea caracterului optic) este importantă pentru PDF-urile scanate
Extracție de date:- OCR vă permite să convertiți textul scanat în date ce pot fi citite pe mașină, care pot fi editate și indexate.
Capacitatea de a căuta:- Prin transformarea PDF-urilor scanate în documente care pot fi căutate, puteți găsi rapid informații relevante fără căutarea manuală prin pagini.
Creșterea productivității:- Scăderea timpului prin automatizarea conversiei documentelor scanate în formate editabile, cum ar fi Word sau Excel.
Previziuni: Set-up pentru scanate PDF Text Extraction
Înainte de a începe să extrageți text din PDF-urile scanate, asigurați-vă că următoarele pași sunt complete:
Instalați Aspose.OCR pentru .NET:- Adăugați Aspose.OCR la proiectul dvs. folosind NuGet:
dotnet add package Aspose.OCR
Obțineți o Licență Metrată:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Pregătiți PDF-urile scanate:- Asigurați-vă că PDF-urile scanate sunt de înaltă calitate. rezultate de calitate mai bună în OCR mai precis.
Ghid pas cu pas: Extractarea textului din PDF-urile scanate
Pasul 1: Instalarea bibliotecii necesare
Începeți prin instalarea Aspose.OCR pentru .NET în proiectul dvs. Puteți face acest lucru direct de la NuGet.
dotnet add package Aspose.OCR
Pasul 2: Introduceți cheile de licență
Înainte de procedură, configurați licența pentru Aspose.OCR pentru a dezactiva toate caracteristicile.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Pasul 3: Încărcați PDF-ul scanat în obiectul de intrare OCR
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Pasul 4: Procesarea PDF-ului scanat folosind motorul OCR
Cu PDF încărcat, treceți-l la motorul Aspose OCR pentru recunoaștere.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Pasul 5: scoateți textul recunoscut sau salvați-l
Odată ce motorul OCR prelucrează PDF-ul, puteți exporta textul recunoscut direct sau îl salvați într-un fișier.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Pasul 6: Testarea și optimizarea rezultatelor OCR
După extractarea textului, testați rezultatul pentru precizie. dacă este necesar, puteți schimba setările OCR pentru a îmbunătăți rezultatele pentru diferite layout-uri de documente.
Probleme și fixări comune
Precizia OCR scăzută
- Soluție: Asigurați-vă că calitatea PDF-ului scanat este ridicată.
2 Fonturi nesuportate
- Soluție: Asigurați setarea corectă a limbii în opțiunile OCR pentru a îmbunătăți recunoașterea caracterelor non-latine.
3. performanță lentă
- Soluție: Deschideți PDF-ul în bucăți sau pagini mai mici pentru o prelucrare mai rapidă, mai ales pentru documente mari.