Com extreure text de PDFs escanats en .NET utilitzant Aspose.OCR
Els PDFs escanats són sovint desafiants per treballar amb perquè són essencialment només imatges de text. Convertir aquestes imatges en documents textuals buscables i editables obre un món de possibilitats per a la gestió de documents i l’accessibilitat del contingut. Amb Aspose.OCR per .NET, es poden convertir els PDF s’escanant en els documents completament cercables mentre es conserven les imatges originals.
Per què el reconeixement de caràcters òptic (OCR) és important per a PDFs escanats
Extracció de dades:- L’OCR li permet convertir el text escanejat en dades que es poden llegir a màquina, que es poden editar i indexar.
La capacitat de recerca:- Amb la conversió de PDFs escanats en documents que es poden buscar, es pot trobar ràpidament la informació rellevant sense buscar manualment a través de les pàgines.
Millora de la productivitat:- Estalviar temps automatitzant la conversió de documents escanats en formats editables com Word o Excel.
Prerequisits: Configuració per a l’extracció de text PDF escanejada
Abans de començar a extreure text dels vostres PDFs escanats, assegureu-vos que els següents passos són complets:
Instal·lació d’Aspose.OCR per a .NET:- Afegeix Aspose.OCR al teu projecte utilitzant NuGet:
dotnet add package Aspose.OCR
Obtenir una Llicència Metrada:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Prepareu els vostres PDFs escanats:- Assegureu-vos que els vostres PDFs escanats són d’alta qualitat. millors resultats de qualitat en OCR més exactes.
Guia de pas a pas: Extracció de text de PDFs escanats
Pas 1: Instal·lació de la biblioteca requerida
Comença instal·lant Aspose.OCR per .NET en el teu projecte. pot fer-ho directament des de NuGet.
dotnet add package Aspose.OCR
Pas 2: Instal·la les teves claus de llicència
Abans de procedir, configureu la vostra llicència per Aspose.OCR per desbloquejar totes les característiques.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Pas 3: Carregar el PDF escanat a l’objecte d’entrada OCR
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Pas 4: Processar el PDF escanat utilitzant el motor OCR
Amb el PDF carregat, traslladeu-lo al motor Aspose OCR per a reconeixement.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Pas 5: Sortir el text reconegut o salvar-lo
Una vegada que el motor de l’OCR procesa el PDF, es pot produir el text reconegut directament o guardar-lo en un fitxer.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Pas 6: Prova i optimització dels resultats de l’OCR
Després d’extreure el text, prova la sortida per a l’exactitud. si és necessari, es poden tweak les configuracions de l’OCR per millorar els resultats per a diferents dissenys de document.
Problemes comuns i fixos
La precisió de l’OCR
- Solució: Assegureu-vos que la qualitat del PDF escanejat és alta. Utilitza escans d’alta resolució per millorar la precisió del reconeixement.
2 Fonts sense suport
- Solució: proporcionar la correcta configuració del llenguatge en les opcions OCR per millorar el reconeixement de caràcters no llatins.
3 – Performances lents
- Solució: Combina el PDF en trossos o pàgines més petites per a un processament més ràpid, especialment per als documents grans.