Come convertire PDF scansionati in documenti di testo ricercabili in .NET
Scanned PDFs sono spesso difficili da gestire perché sono essenzialmente solo immagini di testo. Convertire queste immagini in documenti di testo ricercabili e modificabili apre un mondo di possibilità per la gestione dei documenti e l’accessibilità dei contenuti. Con Aspose.OCR per .NET, puoi convertire PDF scansionati in documenti completamente ricercabili preservando le immagini originali.
Perché convertire PDF scansionati in documenti di testo ricercabili?
- Accessibilità:
- Rendi il contenuto scansionato ricercabile, facilitando la ricerca di informazioni senza dover leggere manualmente il documento.
- Modifica dei contenuti:
- Una volta convertito in testo, il contenuto può essere modificato, aggiornato o riutilizzato in altri formati.
- Efficienza:
- Risparmia tempo automatizzando il processo di conversione di PDF scansionati in documenti di testo completamente accessibili.
Requisiti: Configurazione per l’estrazione di testo da PDF scansionati
Prima di estrarre testo da PDF scansionati, segui questi passaggi per assicurarti che tutto sia configurato:
- Installa Aspose.OCR per .NET:
- Aggiungi Aspose.OCR al tuo progetto utilizzando NuGet:
dotnet add package Aspose.OCR
- Aggiungi Aspose.OCR al tuo progetto utilizzando NuGet:
- Ottieni la tua licenza:
- Configura la tua licenza misurata utilizzando
SetMeteredKey()
per sbloccare la piena funzionalità di Aspose.OCR.
- Configura la tua licenza misurata utilizzando
- Prepara il tuo PDF scansionato:
- Assicurati che i PDF scansionati siano di buona qualità per una migliore accuratezza di riconoscimento.
Guida passo-passo: Conversione di PDF scansionati in testo ricercabile
Passo 1: Configura la tua licenza
Inizia configurando la tua licenza Aspose.OCR per sbloccare tutte le funzionalità.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licenza configurata con successo.");
Passo 2: Carica il PDF scansionato nell’oggetto di input OCR
Successivamente, carica il PDF scansionato nell’oggetto OcrInput per iniziare il processo di OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Elabora le prime 3 pagine
Console.WriteLine("PDF scansionato caricato con successo.");
Passo 3: Configura il motore OCR per il riconoscimento
Configura il motore OCR e imposta eventuali impostazioni di riconoscimento, come lingua e accuratezza.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Imposta la lingua OCR
Console.WriteLine("Motore OCR configurato.");
Passo 4: Estrai e output il testo riconosciuto
Ora, estrai il testo dal PDF scansionato utilizzando il motore OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Testo estratto con successo dal PDF scansionato.");
// Output del testo riconosciuto
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Salva il risultato in un file di testo
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Testo salvato in recognized_text.txt.");
Passo 5: Testa il PDF ricercabile
Assicurati che il testo estratto sia ricercabile e modificabile testando l’output in un visualizzatore o editor PDF.
Problemi comuni e soluzioni
1. Bassa accuratezza OCR
- Soluzione: Assicurati che il PDF scansionato sia di alta qualità (almeno 300 DPI) per migliorare i risultati di riconoscimento.
2. Caratteri non supportati
- Soluzione: Assicurati che la lingua corretta sia impostata nelle impostazioni OCR per un riconoscimento testuale accurato, specialmente per i caratteri non latini.
3. Prestazioni lente per PDF di grandi dimensioni
- Soluzione: Per PDF di grandi dimensioni, elabora il documento in porzioni o pagine più piccole per ridurre l’uso della memoria e accelerare il processo.