Come convertire PDF scansionati in documenti di testo di ricerca in .NET

I PDF scansionati sono spesso sfidanti a lavorare con loro perché sono essenzialmente solo immagini di testo. Convertire queste immagini in documenti di testo ricercabili edilizzabili apre un mondo di possibilità per la gestione dei documenti e l’accessibilità del contenuto. Con Aspose.OCR per .NET, è possibile convertire i PDF scansionati in documenti completamente ricercabili conservando le immagini originali.

Perché convertire PDF scansionati in documenti di testo di ricerca?

Accessibilità:- Fare possibile la ricerca dei contenuti scansionati, rendendo facile trovare informazioni senza leggere manualmente attraverso il documento.
Editore di contenuti:- Una volta convertito in testo, il contenuto può essere modificato, aggiornato o riutilizzato in altri formati.
Efficienza:- Risparmio di tempo automatizzando il processo di conversione dei PDF scansionati in documenti di testo completamente accessibili.

Prerequisiti: Impostazioni per la scansione di testo PDF

Prima di estrarre il testo dai PDF scansionati, seguire questi passaggi per assicurarsi che tutto sia impostato:

Installare Aspose.OCR per .NET:- Aggiungi Aspose.OCR al tuo progetto utilizzando NuGet: dotnet add package Aspose.OCR
Ricevi la tua licenza:- Imposta la tua licenza misurata utilizzando SetMeteredKey() per disattivare la piena funzionalità di Aspose.OCR.
Risegna il tuo PDF scansionato:- Assicurarsi che i PDF scansionati siano di buona qualità per una migliore precisione del riconoscimento.

Guida passo dopo passo: Convertire PDF scansionati in testo di ricerca

Passo 1: Imposta la tua licenza

Inizia configurando la tua licenza Aspose.OCR per disattivare tutte le funzionalità.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Passo 2: Caricare il PDF scansionato nell’oggetto di input OCR

Successivamente, carica il PDF scansionato nell’oggetto OcrInput per iniziare il processo OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Passo 3: Configurare il motore OCR per il riconoscimento

Configurare il motore OCR e configurare qualsiasi impostazione di riconoscimento, come la lingua e l’accuratezza.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Passo 4: Rilasciare e rilasciare il testo riconosciuto

Ora, estrarre il testo dal PDF scansionato utilizzando il motore OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Passo 5: Testare il PDF in cerca

Assicurarsi che il testo estratto sia ricercabile e modificabile testando la produzione in un visualizzatore o editor PDF.

Problemi e fissazioni comuni

b) bassa precisione OCR

Soluzione: Assicurarsi che il PDF scansionato sia di alta qualità (almeno 300 DPI) per migliorare i risultati di riconoscimento.

2 Font non supportati

Soluzione: Assicurarsi che il linguaggio corretto sia impostato nelle impostazioni OCR per il riconoscimento del testo accurato, specialmente per i caratteri non latini.

Rallentamento delle prestazioni per i grandi PDF

Soluzione: Per i grandi PDF, elaborare il documento in pezzi o pagine più piccole per ridurre l’uso della memoria e accelerare il processo.