Come preparare le immagini scansionate per OCR con Deskew utilizzando .NET
Accurate OCR (Optical Character Recognition) inizia con immagini perfettamente allineate. scansioni rotate o rotated riducono l’accuratezza dell’OCR, quindi il decaying è un passo di pre-processing critico. Aspose.Imaging per .NET ti consente di tagliare documenti/foto per i migliori risultati in qualsiasi strumento OCR esterno.
Il problema del mondo reale
I motori OCR funzionano meglio su immagini ben allineate. scansioni crollate causano caratteri o errori di testo mancati.
Soluzione Overview
Utilizzare Aspose.Imaging per .NET per dischiudere le immagini scansionate automaticamente. salvare in un formato senza perdite come PNG o TIFF, pronto per l’importazione nel software OCR di scelta (Asposa.OCR, Tesseract, ecc.).
Prerequisiti
- Visual Studio 2019 o successivo
- .NET 6.0 o successivo (o .Net Framework 4.6.2+)
- Aspose.Imaging per .NET da NuGet
- Un documento o immagine scansionata (JPEG, PNG, TIFF, ecc.)
PM> Install-Package Aspose.Imaging
Implementazione passo dopo passo
Passo 1: Rimuovere l’immagine scansionata
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Passo 2: Passare le immagini disegnate a qualsiasi motore OCR
- Utilizzare il tuo strumento OCR preferito per riconoscere il testo dall’immagine disegnata.
- Esempio: importazione
scan_for_ocr_deskewed.png
nel vostro pipeline OCR o software (Aspose.OCR, Tesseract, ABBYY, ecc.).
Passo 3: Riflessioni e revisioni
- Verificare i risultati OCR. Se l’accuratezza è bassa, regolare le impostazioni dello sfondo o la qualità dello scansione.
- Considera il processamento di batch per tutte le nuove scansioni per mantenere il tuo flusso di lavoro di digitalizzazione efficiente.
Utilizzare casi e applicazioni
- Digitalizzare archivi, ricetti, contratti o moduli per il testo di ricerca
- Preparare documenti aziendali per la conformità e l’audit
- Migliorare l’accuratezza in qualsiasi tubo OCR o di automazione dei documenti
Sfide e soluzioni comuni
Le immagini dischiuse causano ancora errori OCR: Prova diversi colori di sfondo, pre-filtrare per il rumore o scansioni di risoluzione superiore.
I file di uscita sono troppo grandi: Utilizzare TIFF con compressione, o PNG se è necessaria la trasparenza.
Mix di formati d’immagine: Normalizza tutte le scansioni a un formato senza perdite prima dell’OCR.
Migliori pratiche
- Utilizzare sempre i formati di immagine senza perdite per OCR
- Mantenere immagini originali e elaborate per riferimento
- Documenta il tuo flusso di lavoro di decollo e digitalizzazione per il team
FAQ
**Q: Posso raccogliere tutte le immagini in una cartella?**A: Sì – inserire questo codice in un loop su tutti i file, come mostrato negli esempi di batch precedenti.
**Q: Quale colore di sfondo funziona meglio per OCR?**A: Il bianco è il più sicuro per il testo; utilizzare trasparente per le grafiche, o corrispondere al documento.
**Q: è OK per comprimere i file dopo il decollo?**A: Utilizzare la compressione senza perdite per evitare articoli che riducono l’accuratezza dell’OCR.
conclusione
Immaginare per .NET è una necessità per un’OCR affidabile, la digitalizzazione e l’automazione aziendale. Mantenere il vostro pipeline pulito, veloce e accurato! Aspose.Imaging per .NET API Reference .