Come convertire PDF scansionati in documenti di testo ricercabili in .NET

Come convertire PDF scansionati in documenti di testo ricercabili in .NET

Scanned PDFs sono tipicamente file basati su immagini e non modificabili, il che rende difficile estrarre testo da essi. Tuttavia, con Aspose.OCR per .NET, puoi rapidamente trasformare questi PDF scansionati in documenti di testo modificabili e ricercabili che rendono il recupero dei dati e la gestione dei documenti molto più facili.

Perché dovresti convertire PDF scansionati in testo ricercabile?

  1. Accessibilità migliorata:
    • I PDF scansionati possono essere convertiti in testo ricercabile e modificabile, consentendo una migliore accessibilità al contenuto.
  2. Organizzazione dei dati:
    • Una volta convertito, il testo può essere organizzato, manipolato e riutilizzato in vari formati come Word, Excel o testo semplice.
  3. Conservazione del contenuto:
    • Aspose.OCR garantisce che le immagini e il layout originali siano preservati mentre il testo viene estratto, fornendoti sia contenuto che contesto.

Requisiti: Prepararsi per la conversione di PDF scansionati

Prima di iniziare il processo di estrazione del testo dai PDF scansionati, assicurati di quanto segue:

  1. Installa Aspose.OCR per .NET:
    • Installa la libreria necessaria utilizzando NuGet con il comando:
      dotnet add package Aspose.OCR
  2. Configurazione della licenza:
    • Ottieni e configura una licenza a consumo utilizzando il metodo SetMeteredKey() per sbloccare tutte le funzionalità.
  3. Prepara i tuoi PDF scansionati:
    • Assicurati che i tuoi PDF scansionati siano di buona qualità (300 DPI o superiore) per i migliori risultati OCR.

Guida passo-passo per convertire PDF scansionati in testo

Passo 1: Configura la tua licenza

Inizia configurando la tua licenza Aspose.OCR per garantire l’accesso completo alle funzionalità.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Licenza a consumo configurata con successo.");

Passo 2: Carica il PDF scansionato nell’oggetto di input OCR

Carica il file PDF scansionato nel motore OCR per il riconoscimento del testo.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specifica le pagine da elaborare (prime 3 pagine)
Console.WriteLine("PDF scansionato caricato con successo.");

Passo 3: Configura il motore OCR per il riconoscimento

Configura il motore OCR per ottimizzare l’estrazione del testo dal PDF scansionato.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specifica la lingua OCR (usa il latino per l'inglese)
Console.WriteLine("Impostazioni OCR configurate.");

Passo 4: Estrai e salva il testo riconosciuto

Elabora il PDF scansionato per estrarre il testo e salvarlo in un file.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Estrazione del testo riuscita.");

// Salva il testo riconosciuto in un file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Testo riconosciuto salvato in recognized_text.txt.");

Passo 5: Testa il testo riconosciuto

Dopo l’estrazione, verifica l’accuratezza del riconoscimento del testo controllando il file di output o visualizzandolo sulla console.


Problemi comuni e soluzioni

1. Bassa precisione OCR

  • Soluzione: Assicurati che la qualità del PDF scansionato sia alta (300 DPI o più) per una migliore precisione di riconoscimento.

2. Riconoscimento della lingua errato

  • Soluzione: Specifica esplicitamente l’impostazione della lingua in RecognitionSettings per ottenere risultati migliori, soprattutto per caratteri non latini.

3. Prestazioni lente per file di grandi dimensioni

  • Soluzione: Elabora PDF di grandi dimensioni a pezzi o ottimizza l’uso della memoria per accelerare il processo OCR.
 Italiano