Come raccogliere documenti scansionati per OCR in .NET
Al momento della preparazione dei documenti scansionati per Optical Character Recognition (OCR), è essenziale raccogliere le immagini per concentrarsi sulle aree pesanti del testo.Cropping parti irrilevanti del documento assicura che il software OCR possa estrarre il testo in modo più accurato ed efficiente. Aspose.Imaging per .NET fornisce gli strumenti necessari per raccogliere i documenti scansionati e prepararli per il trattamento OCR.
I vantaggi di Cropping Scanned Documents per OCR
Migliorare la precisione:- Concentrare gli sforzi dell’OCR sulle sezioni di testo pertinenti, evitando il rumore o il contenuto irrilevante.
Riduce il tempo di elaborazione:- Piantare l’immagine per ridurre al minimo l’area da elaborare, accelerando il processo OCR.
Migliore estratto di testo:- Assicurarsi che il testo sia correttamente allineato e ben strutturato per i motori OCR.
Prerequisiti: Setting Up Aspose.Imaging
- Installare il di .NET SDK sul tuo sistema.
- Aggiungi Aspose.Imaging al tuo progetto:
dotnet add package Aspose.Imaging
- Ottenere una licenza misurata e configurarla utilizzando
SetMeteredKey()
.
Guida passo dopo passo per la raccolta dei documenti scansionati per OCR
Passo 1: Configurare la licenza misurata
Configurare Aspose.Imaging per l’accesso illimitato alle funzionalità di raccolta.
using Aspose.Imaging;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Passo 2: Caricare l’immagine del documento scansionato
Carica il file di documento scansionato che deve essere raccolto per la preparazione OCR.
string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
Console.WriteLine($"Loaded scanned document: {inputPath}");
}
Passo 3: Definisci l’area della coltivazione
Definisci la zona rettangolare intorno al testo che deve essere estratto.
var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");
Passo 4: Applicare l’operazione di coltivazione
Utilizzare il Crop()
Metodo per estrarre la sezione di testo richiesta dall’immagine.
image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");
Passo 5: Salva l’immagine croppata
Salva l’immagine raccolta per il trattamento OCR.
image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");
Sviluppo e utilizzo
Sistemi di elaborazione dei documenti:- Implementazione della raccolta in sistemi di scansione automatica dei documenti per preparare le immagini per l’OCR.
Integrazione del flusso di lavoro OCR:- I documenti di coltivazione prima di trasmetterli ai motori OCR per un’estrazione di testo più veloce e più accurata.
Validazione di uscita:- Apri l’immagine collocata per garantire che il testo sia chiaramente visibile e frammentato correttamente.
Applicazioni reali
Scansione dei documenti legali e medici:- Crop scansioni di contratti o registri medici per concentrarsi sul testo importante per il trattamento OCR.
Sistemi di archiviazione:- Preparare i documenti storici per l’estrazione e la digitalizzazione del testo.
Servizi di e-Government:- Automatizzare l’estrazione del testo dai moduli o applicazioni scansionati.
Problemi e fissazioni comuni
L’area di coltivazione non corretta:- Assicurarsi che il
Rectangle
Le coordinate corrispondono alla sezione con il testo.Immagini di bassa qualità:- Assicurarsi che l’immagine scansionata abbia una risoluzione abbastanza alta per l’accuratezza OCR.
Permessi di archivio:- Verificare le directory di uscita hanno le appropriate autorizzazioni di scrittura.
conclusione
Utilizzando Aspose.Imaging per .NET, puoi facilmente raccogliere documenti scansionati per concentrarsi sulle sezioni importanti per il trattamento OCR, migliorando l’accuratezza e l’efficienza.Questa soluzione è ideale per i flussi di lavoro automatizzati nella gestione dei documenti, nei sistemi legali e nel settore sanitario.