Come convertire PDF scansionati in documenti di testo di ricerca in .NET
I PDF scansionati sono spesso sfidanti a lavorare con loro perché sono essenzialmente solo immagini di testo. Convertire queste immagini in documenti di testo ricercabili edilizzabili apre un mondo di possibilità per la gestione dei documenti e l’accessibilità del contenuto. Con Aspose.OCR per .NET, è possibile convertire i PDF scansionati in documenti completamente ricercabili conservando le immagini originali.
Perché convertire PDF scansionati in documenti di testo di ricerca?
Accessibilità:- Fare possibile la ricerca dei contenuti scansionati, rendendo facile trovare informazioni senza leggere manualmente attraverso il documento.
Editore di contenuti:- Una volta convertito in testo, il contenuto può essere modificato, aggiornato o riutilizzato in altri formati.
Efficienza:- Risparmio di tempo automatizzando il processo di conversione dei PDF scansionati in documenti di testo completamente accessibili.
Prerequisiti: Impostazioni per la scansione di testo PDF
Prima di estrarre il testo dai PDF scansionati, seguire questi passaggi per assicurarsi che tutto sia impostato:
Installare Aspose.OCR per .NET:- Aggiungi Aspose.OCR al tuo progetto utilizzando NuGet:
dotnet add package Aspose.OCR
Ricevi la tua licenza:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Risegna il tuo PDF scansionato:- Assicurarsi che i PDF scansionati siano di buona qualità per una migliore precisione del riconoscimento.
Guida passo dopo passo: Convertire PDF scansionati in testo di ricerca
Passo 1: Imposta la tua licenza
Inizia configurando la tua licenza Aspose.OCR per disattivare tutte le funzionalità.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Passo 2: Caricare il PDF scansionato nell’oggetto di input OCR
Successivamente, carica il PDF scansionato nell’oggetto OcrInput per iniziare il processo OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Passo 3: Configurare il motore OCR per il riconoscimento
Configurare il motore OCR e configurare qualsiasi impostazione di riconoscimento, come la lingua e l’accuratezza.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Passo 4: Rilasciare e rilasciare il testo riconosciuto
Ora, estrarre il testo dal PDF scansionato utilizzando il motore OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Passo 5: Testare il PDF in cerca
Assicurarsi che il testo estratto sia ricercabile e modificabile testando la produzione in un visualizzatore o editor PDF.
Problemi e fissazioni comuni
b) bassa precisione OCR
- Soluzione: Assicurarsi che il PDF scansionato sia di alta qualità (almeno 300 DPI) per migliorare i risultati di riconoscimento.
2 Font non supportati
- Soluzione: Assicurarsi che il linguaggio corretto sia impostato nelle impostazioni OCR per il riconoscimento del testo accurato, specialmente per i caratteri non latini.
Rallentamento delle prestazioni per i grandi PDF
- Soluzione: Per i grandi PDF, elaborare il documento in pezzi o pagine più piccole per ridurre l’uso della memoria e accelerare il processo.