Com convertir PDFs escanats en documents de text buscables en .NET

Els PDFs escanats són en general no editats, fitxers basats en imatges, el que fa que sigui difícil extreure text d’ells. No obstant això, amb Aspose.OCR per .NET, es poden transformar ràpidament aquests pdfs en documents de text editables i buscables que fan la recuperació de dades i la gestió de documents molt més fàcil.

Per què has de convertir PDFs escanats en text buscable?

Accessibilitat més ràpida:- Els PDFs escanats es poden convertir en text que és buscable i editable, permetent una millor accessibilitat al contingut.
Organització de dades:- Una vegada convertit, el text es pot organitzar, manipular i reutilitzar en diversos formats com Word, Excel o text pla.
Retenció de continguts:- Aspose.OCR assegura que les imatges originals i el disseny es conserven mentre s’extreu el text, donant tant el contingut com el context.

Requisits: Preparar-se per a la conversió de PDF escanada

Abans de començar el procés d’extracció de text dels PDFs escanats, assegureu-vos que:

Instal·lació d’Aspose.OCR per a .NET:- Instal·la la biblioteca necessària utilitzant NuGet amb el comandament: dotnet add package Aspose.OCR
Configuració de llicència:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.
Prepareu els vostres PDFs escanats:- Assegureu-vos que els vostres PDFs escanats són de bona qualitat (300 DPI o més) per als millors resultats OCR.

Guia de pas a pas per convertir PDFs escanats en text

Pas 1: Configura la teva llicència

Comencem configurant la vostra llicència Aspose.OCR per garantir l’accés complet a les característiques.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Pas 2: Carregar el PDF escanat a l’objecte d’entrada OCR

Carregar el fitxer PDF escanejat al motor OCR per al reconeixement de text.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Pas 3: Configure el motor OCR per a la reconeixement

Instal·la el motor OCR per optimitzar l’extracció de text del PDF escanejat.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Pas 4: Extraure i salvar el text reconegut

Processar el PDF escanejat per extraure el text i exportar-lo a un fitxer.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Pas 5: Provar el text reconegut

Després de l’extracció, verifica l’exactitud del reconeixement de text verificant el fitxer de sortida o mostrant-lo a la consola.

Problemes comuns i fixos

La precisió de l’OCR

Solució: Assegureu-vos que la qualitat del PDF escanejat és alta (300 DPI o més) per a una millor precisió de reconeixement.

Reconeixement incorrecte del llenguatge

Solució: Especifica explícitament la configuració del llenguatge en RecognitionSettings per a millors resultats, especialment per als caràcters no llatins.

Performances lents per a arxius grans

Solució: Processar grans PDFs en trossos o optimitzar l’ús de la memòria per accelerar el procés OCR.