Come estrarre testo da PDF scansionati in .NET utilizzando Aspose.OCR
Scanned PDFs sono spesso difficili da gestire perché sono essenzialmente solo immagini di testo. Convertire queste immagini in documenti di testo ricercabili e modificabili apre un mondo di possibilità per la gestione dei documenti e l’accessibilità dei contenuti. Con Aspose.OCR per .NET, puoi convertire PDF scansionati in documenti completamente ricercabili mantenendo le immagini originali.
Perché l’OCR (Riconoscimento Ottico dei Caratteri) è Importante per i PDF Scansionati
- Estrazione dei Dati:
- L’OCR ti consente di convertire il testo scansionato in dati leggibili dalla macchina, che possono essere modificati e indicizzati.
- Ricercabilità:
- Convertendo i PDF scansionati in documenti ricercabili, puoi trovare rapidamente informazioni pertinenti senza dover cercare manualmente tra le pagine.
- Produttività Migliorata:
- Risparmia tempo automatizzando la conversione di documenti scansionati in formati modificabili come Word o Excel.
Requisiti: Configurazione per l’Estrazione di Testo da PDF Scansionati
Prima di iniziare a estrarre testo dai tuoi PDF scansionati, assicurati che i seguenti passaggi siano completati:
- Installa Aspose.OCR per .NET:
- Aggiungi Aspose.OCR al tuo progetto utilizzando NuGet:
dotnet add package Aspose.OCR
- Aggiungi Aspose.OCR al tuo progetto utilizzando NuGet:
- Ottieni una Licenza Metered:
- Configura la tua licenza metered per sbloccare tutte le funzionalità della libreria Aspose.OCR utilizzando
SetMeteredKey()
.
- Configura la tua licenza metered per sbloccare tutte le funzionalità della libreria Aspose.OCR utilizzando
- Prepara i Tuoi PDF Scansionati:
- Assicurati che i tuoi PDF scansionati siano di alta qualità. Maggiore è la qualità, più accurato sarà l’OCR.
Guida Passo-Passo: Estrazione di Testo da PDF Scansionati
Passo 1: Installa la Libreria Richiesta
Inizia installando Aspose.OCR per .NET nel tuo progetto. Puoi farlo direttamente da NuGet.
dotnet add package Aspose.OCR
Passo 2: Configura le Tue Chiavi di Licenza
Prima di procedere, configura la tua licenza per Aspose.OCR per sbloccare tutte le funzionalità.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licenza configurata con successo.");
Passo 3: Carica il PDF Scansionato nell’Oggetto di Input OCR
Dovrai caricare il PDF scansionato nell’oggetto OcrInput
. Aspose.OCR supporta la scansione di più pagine di un PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Elabora le prime 3 pagine del PDF
Console.WriteLine("PDF scansionato caricato con successo.");
Passo 4: Elabora il PDF Scansionato Utilizzando il Motore OCR
Con il PDF caricato, passalo al motore Aspose OCR per il riconoscimento.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Imposta la lingua OCR (es. Latino per l'inglese)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Testo estratto dal PDF.");
Passo 5: Output del Testo Riconosciuto o Salvalo
Una volta che il motore OCR elabora il PDF, puoi sia visualizzare direttamente il testo riconosciuto sia salvarlo in un file.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Testo Riconosciuto: {recognizedText}");
// Salva il risultato in un file di testo
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Testo riconosciuto salvato in output.txt.");
Passo 6: Testa e Ottimizza i Risultati OCR
Dopo aver estratto il testo, testa l’output per verificarne l’accuratezza. Se necessario, puoi modificare le impostazioni OCR per migliorare i risultati per diversi layout di documenti.
Problemi Comuni e Soluzioni
1. Scarsa Accuratezza OCR
- Soluzione: Assicurati che la qualità del PDF scansionato sia alta. Utilizza scansioni ad alta risoluzione per migliorare l’accuratezza del riconoscimento.
2. Caratteri Non Supportati
- Soluzione: Fornisci l’impostazione della lingua corretta nelle opzioni OCR per migliorare il riconoscimento dei caratteri non latini.
3. Prestazioni Lente
- Soluzione: Suddividi il PDF in parti più piccole o pagine per una lavorazione più veloce, specialmente per documenti di grandi dimensioni.