Come convertire PDF scansionati in documenti di testo di ricerca in .NET
I PDF scansionati sono di solito file non editabili, basati sull’immagine, il che rende difficile estrarre testo da essi. tuttavia, con Aspose.OCR per .NET, è possibile trasformare rapidamente questi PDF scansionati in documenti di testo editabili, che rendono molto più facile il recupero dei dati e la gestione dei documenti.
Perché dovresti convertire PDF scansionati in testo di ricerca?
Accessibilità avanzata:- I PDF scansionati possono essere convertiti in testo che è ricercabile e modificabile, consentendo una migliore accessibilità al contenuto.
Organizzazione dei dati:- Una volta convertito, il testo può essere organizzato, manipolato e riutilizzato in vari formati come Word, Excel o testo piatto.
Ritenzione del contenuto:- Aspose.OCR assicura che le immagini originali e il layout siano conservate mentre il testo è estratto, dando sia il contenuto che il contesto.
Prerequisiti: Prepararsi per la conversione PDF scansionata
Prima di iniziare il processo di estrazione del testo dai PDF scansionati, assicuratevi che:
Installare Aspose.OCR per .NET:- Installare la biblioteca necessaria utilizzando NuGet con il comando:
dotnet add package Aspose.OCR
Configurazione di licenza:- Ottenere e configurare una licenza misurata utilizzando il
SetMeteredKey()
Metodo per disattivare tutte le caratteristiche.Risegna i tuoi PDF scansionati:- Assicurarsi che i PDF scansionati siano di buona qualità (300 DPI o superiore) per i migliori risultati OCR.
Guida passo dopo passo per convertire PDF scansionati in testo
Passo 1: Configurare la tua licenza
Inizia configurando la tua licenza Aspose.OCR per garantire l’accesso completo alle funzionalità.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Passo 2: Caricare il PDF scansionato nell’oggetto di input OCR
Caricare il file PDF scansionato nel motore OCR per il riconoscimento del testo.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Passo 3: Configurare il motore OCR per il riconoscimento
Imposta il motore OCR per ottimizzare l’estrazione di testo dal PDF scansionato.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Passo 4: estrarre e salvare il testo riconosciuto
Processare il PDF scansionato per estrarre il testo e spostarlo in un file.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Passo 5: Testare il testo riconosciuto
Dopo l’estrazione, verifica l’accuratezza del riconoscimento del testo controllando il file di uscita o visualizzandolo sulla console.
Problemi e fissazioni comuni
La scarsa precisione OCR
- Soluzione: Assicurati che la qualità del PDF scansionato sia elevata (300 DPI o più) per una migliore precisione del riconoscimento.
2 - Riconoscimento linguistico inadeguato
- Soluzione: specificare esplicitamente le impostazioni del linguaggio in RecognitionSettings per risultati migliori, specialmente per i caratteri non latini.
Rallentamento delle prestazioni per file di grandi dimensioni
- Soluzione: elaborare grandi file PDF in pezzi o ottimizzare l’uso della memoria per accelerare il processo OCR.