Com extreure text de PDFs escanats en .NET utilitzant Aspose.OCR

Com extreure text de PDFs escanats en .NET utilitzant Aspose.OCR

Els PDFs escanats són sovint desafiants per treballar amb perquè són essencialment només imatges de text. Convertir aquestes imatges en documents textuals buscables i editables obre un món de possibilitats per a la gestió de documents i l’accessibilitat del contingut. Amb Aspose.OCR per .NET, es poden convertir els PDF s’escanant en els documents completament cercables mentre es conserven les imatges originals.

Per què el reconeixement de caràcters òptic (OCR) és important per a PDFs escanats

  • Extracció de dades:- L’OCR li permet convertir el text escanejat en dades que es poden llegir a màquina, que es poden editar i indexar.

  • La capacitat de recerca:- Amb la conversió de PDFs escanats en documents que es poden buscar, es pot trobar ràpidament la informació rellevant sense buscar manualment a través de les pàgines.

  • Millora de la productivitat:- Estalviar temps automatitzant la conversió de documents escanats en formats editables com Word o Excel.

Prerequisits: Configuració per a l’extracció de text PDF escanejada

Abans de començar a extreure text dels vostres PDFs escanats, assegureu-vos que els següents passos són complets:

  • Instal·lació d’Aspose.OCR per a .NET:- Afegeix Aspose.OCR al teu projecte utilitzant NuGet: dotnet add package Aspose.OCR

  • Obtenir una Llicència Metrada:- Configura la teva llicència mesurada per desbloquejar totes les característiques de la biblioteca Aspose.OCR utilitzant SetMeteredKey().

  • Prepareu els vostres PDFs escanats:- Assegureu-vos que els vostres PDFs escanats són d’alta qualitat. millors resultats de qualitat en OCR més exactes.

Guia de pas a pas: Extracció de text de PDFs escanats

Pas 1: Instal·lació de la biblioteca requerida

Comença instal·lant Aspose.OCR per .NET en el teu projecte. pot fer-ho directament des de NuGet.

dotnet add package Aspose.OCR

Pas 2: Instal·la les teves claus de llicència

Abans de procedir, configureu la vostra llicència per Aspose.OCR per desbloquejar totes les característiques.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Pas 3: Carregar el PDF escanat a l’objecte d’entrada OCR

Vostè haurà de carregar l’escanejat target="_blank" rel="noopener"> PDF

En el OcrInput Object. Aspose.OCR dóna suport a l’escaneig de múltiples pàgines d’un PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Pas 4: Processar el PDF escanat utilitzant el motor OCR

Amb el PDF carregat, traslladeu-lo al motor Aspose OCR per a reconeixement.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Pas 5: Sortir el text reconegut o salvar-lo

Una vegada que el motor de l’OCR procesa el PDF, es pot produir el text reconegut directament o guardar-lo en un fitxer.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Pas 6: Prova i optimització dels resultats de l’OCR

Després d’extreure el text, prova la sortida per a l’exactitud. si és necessari, pot tastar les configuracions OCR per millorar els resultats per als diferents dissenys de document.

Problemes comuns i fixos

La precisió de l’OCR

  • Solució: Assegureu-vos que la qualitat del PDF escanejat és alta. Utilitza escans d’alta resolució per millorar la precisió del reconeixement.

2 Fonts sense suport

  • Solució: proporcionar la correcta configuració del llenguatge en les opcions OCR per millorar el reconeixement de caràcters no llatins.

3 – Performances lents

  • Solució: Combina el PDF en trossos o pàgines més petites per a un processament més ràpid, especialment per als documents grans.
 Català