Come raccogliere documenti scansionati per OCR in .NET

Come raccogliere documenti scansionati per OCR in .NET

Al momento della preparazione dei documenti scansionati per Optical Character Recognition (OCR), è essenziale raccogliere le immagini per concentrarsi sulle aree pesanti del testo.Cropping parti irrilevanti del documento assicura che il software OCR possa estrarre il testo in modo più accurato ed efficiente. Aspose.Imaging per .NET fornisce gli strumenti necessari per raccogliere i documenti scansionati e prepararli per il trattamento OCR.

I vantaggi di Cropping Scanned Documents per OCR

  • Migliorare la precisione:- Concentrare gli sforzi dell’OCR sulle sezioni di testo pertinenti, evitando il rumore o il contenuto irrilevante.

  • Riduce il tempo di elaborazione:- Piantare l’immagine per ridurre al minimo l’area da elaborare, accelerando il processo OCR.

  • Migliore estratto di testo:- Assicurarsi che il testo sia correttamente allineato e ben strutturato per i motori OCR.

Prerequisiti: Setting Up Aspose.Imaging

  • Installare il di .NET SDK sul tuo sistema.
  • Aggiungi Aspose.Imaging al tuo progetto: dotnet add package Aspose.Imaging
  • Ottenere una licenza misurata e configurarla utilizzando SetMeteredKey().

Guida passo dopo passo per la raccolta dei documenti scansionati per OCR

Passo 1: Configurare la licenza misurata

Configurare Aspose.Imaging per l’accesso illimitato alle funzionalità di raccolta.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Passo 2: Caricare l’immagine del documento scansionato

Carica il file di documento scansionato che deve essere raccolto per la preparazione OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Passo 3: Definisci l’area della coltivazione

Definisci la zona rettangolare intorno al testo che deve essere estratto.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Passo 4: Applicare l’operazione di coltivazione

Utilizzare il Crop() Metodo per estrarre la sezione di testo richiesta dall’immagine.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Passo 5: Salva l’immagine croppata

Salva l’immagine raccolta per il trattamento OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Sviluppo e utilizzo

  • Sistemi di elaborazione dei documenti:- Implementazione della raccolta in sistemi di scansione automatica dei documenti per preparare le immagini per l’OCR.

  • Integrazione del flusso di lavoro OCR:- I documenti di coltivazione prima di trasmetterli ai motori OCR per un’estrazione di testo più veloce e più accurata.

  • Validazione di uscita:- Apri l’immagine collocata per garantire che il testo sia chiaramente visibile e frammentato correttamente.

Applicazioni reali

  • Scansione dei documenti legali e medici:- Crop scansioni di contratti o registri medici per concentrarsi sul testo importante per il trattamento OCR.

  • Sistemi di archiviazione:- Preparare i documenti storici per l’estrazione e la digitalizzazione del testo.

  • Servizi di e-Government:- Automatizzare l’estrazione del testo dai moduli o applicazioni scansionati.

Problemi e fissazioni comuni

  • L’area di coltivazione non corretta:- Assicurarsi che il Rectangle Le coordinate corrispondono alla sezione con il testo.

  • Immagini di bassa qualità:- Assicurarsi che l’immagine scansionata abbia una risoluzione abbastanza alta per l’accuratezza OCR.

  • Permessi di archivio:- Verificare le directory di uscita hanno le appropriate autorizzazioni di scrittura.

conclusione

Utilizzando Aspose.Imaging per .NET, puoi facilmente raccogliere documenti scansionati per concentrarsi sulle sezioni importanti per il trattamento OCR, migliorando l’accuratezza e l’efficienza.Questa soluzione è ideale per i flussi di lavoro automatizzati nella gestione dei documenti, nei sistemi legali e nel settore sanitario.

 Italiano