Cómo preparar imágenes escaneadas para OCR con Deskew utilizando .NET
OCR exacta (Reconocimiento de Caracteres Ópticos) comienza con imágenes perfectamente alineadas. Escaneados o rotados reducen la exactitud de la OCR, por lo que el descuento es un paso crítico de preprocesamiento. Aspose.Imaging para .NET le permite grabar documentos/fotografías para los mejores resultados en cualquier herramienta de OKR externo.
Problemas del mundo real
Los motores de OCR funcionan mejor en imágenes bien alignadas. las escaneas crónicas causan personajes perdidos o errores en el texto. la grabación manual es demasiado lenta para grandes batallas.
Revisión de Soluciones
Utilice Aspose.Imaging para .NET para descuidar las imágenes escaneadas automáticamente. almacenarlas en un formato sin pérdidas como PNG o TIFF, listo para la importación en su software OCR de su elección (Asposa.OCR, Tesseract, etc.).
Prerequisitos
- Visual Studio 2019 o más tarde
- .NET 6.0 o posterior (o .Net Framework 4.6.2+)
- Aspose.Imaging para .NET de NuGet
- Un documento o imagen escaneada (JPEG, PNG, TIFF, etc.)
PM> Install-Package Aspose.Imaging
Implementación paso a paso
Paso 1: Descifrar la imagen escaneada
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Paso 2: Pasar las imágenes descuidadas a cualquier motor OCR
- Utilice su herramienta OCR preferida para reconocer el texto de la imagen descuidada.
- Exemplos: Importación
scan_for_ocr_deskewed.png
en su pipeline OCR o software (Aspose.OCR, Tesseract, ABBYY, etc.).
Paso 3: Revisión y revisión
- Verifique los resultados de OCR. Si la precisión es baja, ajuste las configuraciones de descuento/background o la calidad de escaneo.
- Considere el procesamiento de batch para todas las nuevas escaneas para mantener el flujo de trabajo de digitalización eficiente.
Usar Casos y Aplicaciones
- Digitalizar archivos, recipientes, contratos o formularios para el texto buscable
- Preparar documentos de negocio para el cumplimiento y la auditoría
- Mejorar la precisión en cualquier OCR o tubo de automatización de documentos
Desafíos y soluciones comunes
Las imágenes descuidadas siguen causando errores de OCR: Trate de diferentes colores de fondo, pre-filtración para ruido o escaneos de mayor resolución.
**Los archivos de salida son demasiado grandes: ** Utilice TIFF con compresión, o PNG si se necesita transparencia.
**Mix de formatos de imagen: ** Normalizar todos los scans a un formato sin pérdidas antes de OCR.
Mejores Prácticas
- Utilizar siempre los formatos de imagen sin pérdida para OCR
- Mantener imágenes originales y procesadas para referencia
- Documenta su descuento y flujo de trabajo de digitalización para el equipo
FAQ
**Q: ¿Puedo despojar todas las imágenes en una carpeta?**A: Sí - envuelve este código en un círculo sobre todos los ficheros, como se muestra en los ejemplos de batch anteriores.
**Q: ¿Qué color de fondo funciona mejor para OCR?**A: Blanco es más seguro para el texto; use transparente para los gráficos, o se ajusta a su documento.
**Q: ¿Es OK para comprimir los archivos después de descuidar?**A: Utilice compresión sin pérdidas para evitar artefactos que reducen la precisión de la OCR.
Conclusión
Descubrir con Aspose.Imaging para .NET es un requisito para una OCR fiable, la digitalización y la automatización de negocios. Mantenga su pipeline limpia, rápida y precisa! Aspose.Imaging para .NET API Referencia .