Come estrarre testo da PDF scansionati con Aspose.OCR

Come estrarre testo da PDF scansionati con Aspose.OCR

Estratto di testo da file PDF scansionati o basati sull’immagine utilizzati per richiedere flussi di lavoro complessi o lavoro manuale costoso. Con Aspose.OCR Scanned PDF a testo per .NET, è possibile automatizzare questo processo, convertendo PDF in testo ricercabile e modificabile con solo poche righe di codice.

Il problema del mondo reale

Le organizzazioni spesso ricevono contratti, rapporti o archivi come PDF scansionati. copiare manualmente il testo o cercare all’interno di questi documenti è tedioso e errato, rallentando la conformità, archiviazione e progetti di trasformazione digitale.

Soluzione Overview

Aspose.OCR per .NET ti consente di raccogliere i file PDF scansionati – trasformandoli in file di testo o di ricerca, rendendo le informazioni accessibili, indexabili e pronti per i flussi di lavoro digitali.

Prerequisiti

Prima di iniziare, assicurati di avere:

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
  • Conoscenza C#
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

Aggiungi il pacchetto NuGet e il riferimento Aspose.OCR:

using Aspose.OCR;

Passo 2: Aggiungi i tuoi file PDF scansionati

Crea un oggetto OcrInput per l’ingresso PDF e aggiungi i file PDF scansionati.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Passo 3: Configurare le impostazioni di riconoscimento

Configurare il linguaggio e altre impostazioni di riconoscimento per adattare i tuoi documenti.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Passo 4: Eseguire il processo di riconoscimento

Riconoscere il testo dai tuoi PDF scansionati:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Salva o esporta testo riconosciuto

Esportare il testo riconosciuto in file, o convertire i risultati in PDF di ricerca.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Passo 6: Aggiungi errori di gestione

Raccogliere il riconoscimento in un blocco tentativo/catch per la resistenza.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Ottimizzare i file PDF di grandi o multipagine

  • Processare PDF per pagina per file enormi
  • Utilizzare scansioni di alta qualità per i migliori risultati
  • Il processo di batch in parallelo per grandi collezioni
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Passo 8: Esempio di lavoro completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilizzare casi e applicazioni

Archivio digitale

Convertire tutte le biblioteche di documenti scansionati in file indesiderabili per la conformità e la gestione delle conoscenze.

Gestione legale e contrattuale

Rimuovere le clausole o i termini del contratto da PDF per la revisione, l’automazione o la firma digitale.

Ricerca di documenti Streamlined

Permette la rapida ricerca di testo completo in archivi, basi di conoscenze o file di caso.

Sfide e soluzioni comuni

sfida 1: scansioni di bassa qualità o scomparse

Soluzione: Utilizzare filtri pre-processanti e scansioni di alta qualità se possibile.

Challenge 2: PDF in più lingue

Soluzione: Imposta il linguaggio nelle impostazioni di riconoscimento o nel processo con diverse opzioni linguistiche.

Challenge 3: file PDF molto grandi

**Soluzione: ** Processare in batch o per pagina, e monitorare l’uso della memoria.

Considerazioni di prestazioni

  • Utilizzare un DPI ottimale (300+) per i file PDF scansionati
  • Il processo di batch per il miglior passaggio
  • Dispone di oggetti OCR e file chiusi

Migliori pratiche

  • Validare la produzione OCR prima di ulteriore automazione
  • Organizzazione e backup dei file PDF originali
  • Utilizzare il corretto SaveFormat per il tuo flusso di lavoro
  • Aggiornare regolarmente Aspose.OCR per nuove funzionalità PDF

Scenari avanzati

Scenario 1: estrarre solo pagine specifiche da un PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenario 2: esportazione in molti formati

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

conclusione

Aspose.OCR per .NET consente di convertire i PDF scansionati in file di testo e di ricerca attivabili, eliminando l’ingresso manuale e rendendo le informazioni accessibili a tutta la tua organizzazione.

Per ulteriori dettagli e esempi, vedi il Aspose.OCR per .NET API Reference .

 Italiano