Come estrarre testo da PDF scansionati con Aspose.OCR
Estratto di testo da file PDF scansionati o basati sull’immagine utilizzati per richiedere flussi di lavoro complessi o lavoro manuale costoso. Con Aspose.OCR Scanned PDF a testo per .NET, è possibile automatizzare questo processo, convertendo PDF in testo ricercabile e modificabile con solo poche righe di codice.
Il problema del mondo reale
Le organizzazioni spesso ricevono contratti, rapporti o archivi come PDF scansionati. copiare manualmente il testo o cercare all’interno di questi documenti è tedioso e errato, rallentando la conformità, archiviazione e progetti di trasformazione digitale.
Soluzione Overview
Aspose.OCR per .NET ti consente di raccogliere i file PDF scansionati – trasformandoli in file di testo o di ricerca, rendendo le informazioni accessibili, indexabili e pronti per i flussi di lavoro digitali.
Prerequisiti
Prima di iniziare, assicurati di avere:
- Visual Studio 2019 o successivo
- .NET 6.0 o successivo (o .Net Framework 4.6.2+)
- Aspose.OCR per .NET da NuGet
- Conoscenza C#
PM> Install-Package Aspose.OCR
Implementazione passo dopo passo
Passo 1: Installare e configurare Aspose.OCR
Aggiungi il pacchetto NuGet e il riferimento Aspose.OCR:
using Aspose.OCR;
Passo 2: Aggiungi i tuoi file PDF scansionati
Crea un oggetto OcrInput per l’ingresso PDF e aggiungi i file PDF scansionati.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Passo 3: Configurare le impostazioni di riconoscimento
Configurare il linguaggio e altre impostazioni di riconoscimento per adattare i tuoi documenti.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Passo 4: Eseguire il processo di riconoscimento
Riconoscere il testo dai tuoi PDF scansionati:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Passo 5: Salva o esporta testo riconosciuto
Esportare il testo riconosciuto in file, o convertire i risultati in PDF di ricerca.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Passo 6: Aggiungi errori di gestione
Raccogliere il riconoscimento in un blocco tentativo/catch per la resistenza.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Passo 7: Ottimizzare i file PDF di grandi o multipagine
- Processare PDF per pagina per file enormi
- Utilizzare scansioni di alta qualità per i migliori risultati
- Il processo di batch in parallelo per grandi collezioni
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Passo 8: Esempio di lavoro completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utilizzare casi e applicazioni
Archivio digitale
Convertire tutte le biblioteche di documenti scansionati in file indesiderabili per la conformità e la gestione delle conoscenze.
Gestione legale e contrattuale
Rimuovere le clausole o i termini del contratto da PDF per la revisione, l’automazione o la firma digitale.
Ricerca di documenti Streamlined
Permette la rapida ricerca di testo completo in archivi, basi di conoscenze o file di caso.
Sfide e soluzioni comuni
sfida 1: scansioni di bassa qualità o scomparse
Soluzione: Utilizzare filtri pre-processanti e scansioni di alta qualità se possibile.
Challenge 2: PDF in più lingue
Soluzione: Imposta il linguaggio nelle impostazioni di riconoscimento o nel processo con diverse opzioni linguistiche.
Challenge 3: file PDF molto grandi
**Soluzione: ** Processare in batch o per pagina, e monitorare l’uso della memoria.
Considerazioni di prestazioni
- Utilizzare un DPI ottimale (300+) per i file PDF scansionati
- Il processo di batch per il miglior passaggio
- Dispone di oggetti OCR e file chiusi
Migliori pratiche
- Validare la produzione OCR prima di ulteriore automazione
- Organizzazione e backup dei file PDF originali
- Utilizzare il corretto SaveFormat per il tuo flusso di lavoro
- Aggiornare regolarmente Aspose.OCR per nuove funzionalità PDF
Scenari avanzati
Scenario 1: estrarre solo pagine specifiche da un PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenario 2: esportazione in molti formati
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
conclusione
Aspose.OCR per .NET consente di convertire i PDF scansionati in file di testo e di ricerca attivabili, eliminando l’ingresso manuale e rendendo le informazioni accessibili a tutta la tua organizzazione.
Per ulteriori dettagli e esempi, vedi il Aspose.OCR per .NET API Reference .