Come preparare le immagini scansionate per OCR con Deskew utilizzando .NET

Come preparare le immagini scansionate per OCR con Deskew utilizzando .NET

Accurate OCR (Optical Character Recognition) inizia con immagini perfettamente allineate. scansioni rotate o rotated riducono l’accuratezza dell’OCR, quindi il decaying è un passo di pre-processing critico. Aspose.Imaging per .NET ti consente di tagliare documenti/foto per i migliori risultati in qualsiasi strumento OCR esterno.

Il problema del mondo reale

I motori OCR funzionano meglio su immagini ben allineate. scansioni crollate causano caratteri o errori di testo mancati.

Soluzione Overview

Utilizzare Aspose.Imaging per .NET per dischiudere le immagini scansionate automaticamente. salvare in un formato senza perdite come PNG o TIFF, pronto per l’importazione nel software OCR di scelta (Asposa.OCR, Tesseract, ecc.).

Prerequisiti

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.Imaging per .NET da NuGet
  • Un documento o immagine scansionata (JPEG, PNG, TIFF, ecc.)
PM> Install-Package Aspose.Imaging

Implementazione passo dopo passo

Passo 1: Rimuovere l’immagine scansionata

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Passo 2: Passare le immagini disegnate a qualsiasi motore OCR

  • Utilizzare il tuo strumento OCR preferito per riconoscere il testo dall’immagine disegnata.
  • Esempio: importazione scan_for_ocr_deskewed.png nel vostro pipeline OCR o software (Aspose.OCR, Tesseract, ABBYY, ecc.).

Passo 3: Riflessioni e revisioni

  • Verificare i risultati OCR. Se l’accuratezza è bassa, regolare le impostazioni dello sfondo o la qualità dello scansione.
  • Considera il processamento di batch per tutte le nuove scansioni per mantenere il tuo flusso di lavoro di digitalizzazione efficiente.

Utilizzare casi e applicazioni

  • Digitalizzare archivi, ricetti, contratti o moduli per il testo di ricerca
  • Preparare documenti aziendali per la conformità e l’audit
  • Migliorare l’accuratezza in qualsiasi tubo OCR o di automazione dei documenti

Sfide e soluzioni comuni

Le immagini dischiuse causano ancora errori OCR: Prova diversi colori di sfondo, pre-filtrare per il rumore o scansioni di risoluzione superiore.

I file di uscita sono troppo grandi: Utilizzare TIFF con compressione, o PNG se è necessaria la trasparenza.

Mix di formati d’immagine: Normalizza tutte le scansioni a un formato senza perdite prima dell’OCR.

Migliori pratiche

  • Utilizzare sempre i formati di immagine senza perdite per OCR
  • Mantenere immagini originali e elaborate per riferimento
  • Documenta il tuo flusso di lavoro di decollo e digitalizzazione per il team

FAQ

**Q: Posso raccogliere tutte le immagini in una cartella?**A: Sì – inserire questo codice in un loop su tutti i file, come mostrato negli esempi di batch precedenti.

**Q: Quale colore di sfondo funziona meglio per OCR?**A: Il bianco è il più sicuro per il testo; utilizzare trasparente per le grafiche, o corrispondere al documento.

**Q: è OK per comprimere i file dopo il decollo?**A: Utilizzare la compressione senza perdite per evitare articoli che riducono l’accuratezza dell’OCR.

conclusione

Immaginare per .NET è una necessità per un’OCR affidabile, la digitalizzazione e l’automazione aziendale. Mantenere il vostro pipeline pulito, veloce e accurato! Aspose.Imaging per .NET API Reference .

 Italiano