Come estrarre testo da PDF scansionati in .NET utilizzando Aspose.OCR
I PDF scansionati sono spesso sfidanti a lavorare con loro perché sono essenzialmente solo immagini di testo. Convertire queste immagini in documenti di testo ricercabili edilizzabili apre un mondo di possibilità per la gestione dei documenti e l’accessibilità del contenuto. Con Aspose.OCR per .NET, è possibile convertire i PDF scansionati in documenti completamente ricercabili conservando le immagini originali.
Perché OCR (Optical Character Recognition) è importante per i PDF scansionati
La raccolta dei dati:- OCR consente di convertire il testo scansionato in dati leggibili da macchina, che possono essere modificati e indexati.
La possibilità di cercare:- Convertendo i PDF scansionati in documenti di ricerca, è possibile trovare rapidamente le informazioni pertinenti senza cercare manualmente attraverso le pagine.
Migliorare la produttività:- Salva tempo automatizzando la conversione dei documenti scansionati in formati editabili come Word o Excel.
Prerequisiti: Impostazioni per la scansione di testo PDF
Prima di iniziare a estrarre il testo dai tuoi PDF scansionati, assicurati che i seguenti passaggi siano completati:
Installare Aspose.OCR per .NET:- Aggiungi Aspose.OCR al tuo progetto utilizzando NuGet:
dotnet add package Aspose.OCR
Ottenere una Licenza Metrata:- Imposta la tua licenza misurata per disattivare tutte le funzionalità della biblioteca Aspose.OCR utilizzando
SetMeteredKey()
.Risegna i tuoi PDF scansionati:- Assicurati che i tuoi PDF scansionati siano di alta qualità. risultati di qualità migliori in OCR più accurati.
Guida passo dopo passo: estrazione del testo dai PDF scansionati
Passo 1: Installare la libreria richiesta
Inizia installando Aspose.OCR per .NET nel tuo progetto. puoi farlo direttamente da NuGet.
dotnet add package Aspose.OCR
Passo 2: Imposta le tue chiavi di licenza
Prima di procedere, impostare la tua licenza per Aspose.OCR per disattivare tutte le funzionalità.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Passo 3: Caricare il PDF scansionato nell’oggetto di input OCR
Sarà necessario caricare il PDF scansionato nel OcrInput
Aspose.OCR supporta la scansione di diverse pagine di un PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Passo 4: Processare il PDF scansionato utilizzando il motore OCR
Con il PDF caricato, trasmetterlo al motore Aspose OCR per il riconoscimento.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Passo 5: Rimuovere il testo riconosciuto o salvarlo
Una volta che il motore OCR procesa il PDF, è possibile eseguire direttamente il testo riconosciuto o salvarlo in un file.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Passo 6: Testare e ottimizzare i risultati OCR
Dopo l’estratto del testo, prova l’uscita per precisione. se necessario, puoi schiacciare le impostazioni OCR per migliorare i risultati per diversi layout del documento.
Problemi e fissazioni comuni
La scarsa precisione OCR
- Soluzione: Assicurarsi che la qualità del PDF scansionato sia alta. Utilizzare scans ad alta risoluzione per migliorare l’accuratezza del riconoscimento.
2 Font non supportati
- Soluzione: Fornire la corretta configurazione del linguaggio nelle opzioni OCR per migliorare il riconoscimento per i caratteri non latini.
3 Il rallentamento
- Soluzione: tagliare il PDF in pezzi o pagine più piccole per un trattamento più rapido, specialmente per i documenti più grandi.