Com convertir PDFs escanats en documents de text buscables en .NET

Els PDFs escanats són sovint desafiants per treballar amb perquè són essencialment només imatges de text. Convertir aquestes imatges en documents textuals buscables i editables obre un món de possibilitats per a la gestió de documents i l’accessibilitat del contingut. Amb Aspose.OCR per .NET, es poden convertir els PDF s’escanant en els documents completament cercables mentre es conserven les imatges originals.

Per què convertir PDFs escanats en documents de text buscables?

Accessibilitat de la informaci:- Fer que el contingut escanejat sigui buscable, fent que sigui fàcil trobar informació sense llegir-la manualment a través del document.
Redacció de continguts:- Una vegada convertit en text, el contingut es pot editar, actualitzar o reutilitzar en altres formats.
Eficiència:- Estalviar temps automatitzant el procés de conversió de PDFs escanejats en documents de text completament accessibles.

Prerequisits: Configuració per a l’extracció de text PDF escanejada

Abans d’extreure text dels PDFs escanats, segueix aquests passos per assegurar-se que tot està configurat:

Instal·lació d’Aspose.OCR per a .NET:- Afegeix Aspose.OCR al teu projecte utilitzant NuGet: dotnet add package Aspose.OCR
Obtenir la seva llicència:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Prepareu el vostre PDF escanat:- Assegureu-vos que els PDFs escanats són de bona qualitat per a una millor precisió de reconeixement.

Guia de pas a pas: Convertir PDFs escanats en text buscable

Pas 1: Instal·la la teva llicència

Comencem configurant la vostra llicència Aspose.OCR per desbloquejar totes les característiques.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Pas 2: Carregar el PDF escanat a l’objecte d’entrada OCR

A continuació, carregar el PDF escanejat a l’objecte OcrInput per iniciar el procés OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Pas 3: Configure el motor OCR per a la reconeixement

Establir el motor OCR i configurar qualsevol configuració de reconeixement, com ara el llenguatge i la precisi.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Pas 4: Extreure i treure el text reconegut

Ara, extreu el text del PDF escanejat utilitzant el motor OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Pas 5: Prova el PDF buscable

Assegureu-vos que el text extraït sigui buscable i editable mitjançant la prova de la sortida en un visualitzador o editor de PDF.

Problemes comuns i fixos

Baixa precisió de l’OCR

Solució: Assegureu-vos que el PDF escanejat és d’alta qualitat (almenys 300 DPI) per millorar els resultats de reconeixement.

2 Fonts sense suport

Solució: Assegureu-vos que el llenguatge correcte estigui configurat en les configuracions de l’OCR per al reconeixement de text precís, especialment per als caràcters no llatins.

Performances lents per a grans PDFs

Solució: Per a PDFs grans, processar el document en trossos o pàgines més petites per reduir l’ús de la memòria i accelerar el procés.