Come convertire PDF scansionati in documenti di testo ricercabili in .NET
Scanned PDFs sono tipicamente file basati su immagini e non modificabili, il che rende difficile estrarre testo da essi. Tuttavia, con Aspose.OCR per .NET, puoi rapidamente trasformare questi PDF scansionati in documenti di testo modificabili e ricercabili che rendono il recupero dei dati e la gestione dei documenti molto più facili.
Perché dovresti convertire PDF scansionati in testo ricercabile?
- Accessibilità migliorata:
- I PDF scansionati possono essere convertiti in testo ricercabile e modificabile, consentendo una migliore accessibilità al contenuto.
- Organizzazione dei dati:
- Una volta convertito, il testo può essere organizzato, manipolato e riutilizzato in vari formati come Word, Excel o testo semplice.
- Conservazione del contenuto:
- Aspose.OCR garantisce che le immagini e il layout originali siano preservati mentre il testo viene estratto, fornendoti sia contenuto che contesto.
Requisiti: Prepararsi per la conversione di PDF scansionati
Prima di iniziare il processo di estrazione del testo dai PDF scansionati, assicurati di quanto segue:
- Installa Aspose.OCR per .NET:
- Installa la libreria necessaria utilizzando NuGet con il comando:
dotnet add package Aspose.OCR
- Installa la libreria necessaria utilizzando NuGet con il comando:
- Configurazione della licenza:
- Ottieni e configura una licenza a consumo utilizzando il metodo
SetMeteredKey()
per sbloccare tutte le funzionalità.
- Ottieni e configura una licenza a consumo utilizzando il metodo
- Prepara i tuoi PDF scansionati:
- Assicurati che i tuoi PDF scansionati siano di buona qualità (300 DPI o superiore) per i migliori risultati OCR.
Guida passo-passo per convertire PDF scansionati in testo
Passo 1: Configura la tua licenza
Inizia configurando la tua licenza Aspose.OCR per garantire l’accesso completo alle funzionalità.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licenza a consumo configurata con successo.");
Passo 2: Carica il PDF scansionato nell’oggetto di input OCR
Carica il file PDF scansionato nel motore OCR per il riconoscimento del testo.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specifica le pagine da elaborare (prime 3 pagine)
Console.WriteLine("PDF scansionato caricato con successo.");
Passo 3: Configura il motore OCR per il riconoscimento
Configura il motore OCR per ottimizzare l’estrazione del testo dal PDF scansionato.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specifica la lingua OCR (usa il latino per l'inglese)
Console.WriteLine("Impostazioni OCR configurate.");
Passo 4: Estrai e salva il testo riconosciuto
Elabora il PDF scansionato per estrarre il testo e salvarlo in un file.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Estrazione del testo riuscita.");
// Salva il testo riconosciuto in un file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Testo riconosciuto salvato in recognized_text.txt.");
Passo 5: Testa il testo riconosciuto
Dopo l’estrazione, verifica l’accuratezza del riconoscimento del testo controllando il file di output o visualizzandolo sulla console.
Problemi comuni e soluzioni
1. Bassa precisione OCR
- Soluzione: Assicurati che la qualità del PDF scansionato sia alta (300 DPI o più) per una migliore precisione di riconoscimento.
2. Riconoscimento della lingua errato
- Soluzione: Specifica esplicitamente l’impostazione della lingua in RecognitionSettings per ottenere risultati migliori, soprattutto per caratteri non latini.
3. Prestazioni lente per file di grandi dimensioni
- Soluzione: Elabora PDF di grandi dimensioni a pezzi o ottimizza l’uso della memoria per accelerare il processo OCR.