Cómo extraer tablas y datos tabulares de imágenes con Aspose.OCR
La extracción de tablas de imágenes, formularios o informes escaneados es desafiante – la retipulación manual es lenta y prohibida por errores. Aspose.OCR Tabla a texto para .NET automatiza la extración y estructura de los datos de la tabla de las imágenes y las fotos.
Problemas del mundo real
Las declaraciones financieras, los formularios de encuestas y los resultados científicos a menudo se encuentran atrapados en tablas o imágenes escaneadas.Recrear manualmente estos datos pierde horas y riesgos de introducir errores.
Revisión de Soluciones
Aspose.OCR para .NET puede detectar, extraer y convertir con precisión las tablas de imágenes o PDFs escaneados en formatos que se pueden leer por máquina, perfectos para Excel, informes o automatización del flujo de trabajo.
Prerequisitos
- Visual Studio 2019 o más tarde
- .NET 6.0 o posterior (o .Net Framework 4.6.2+)
- Aspose.OCR para .NET de NuGet
- Conocimiento básico C#
PM> Install-Package Aspose.OCR
Implementación paso a paso
Paso 1: Instalar y configurar Aspose.OCR
using Aspose.OCR;
Paso 2: Escanear o fotografiar imágenes que contienen tablas
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Paso 3: Configure la configuración de la tabla de reconocimiento
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Paso 4: Ejecutar el proceso de extracción de mesa
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Paso 5: Datos de la tabla de exportación
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Paso 6: Agregar el tratamiento de errores y la validación
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Paso 7: Optimizar para tablas complejas, rotadas o múltiples páginas
- Imágenes preprocesadas para descuidar o cultivar
- Utilice escaneos de alta resolución o fotos
- Para PDFs multipáginas, añade cada página como una entrada separada
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Paso 8: El ejemplo completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Usar Casos y Aplicaciones
Informes financieros y científicos
Extraer tablas de las declaraciones financieras, resultados de laboratorio o documentos de investigación para análisis instantáneo en Excel.
Investigación y Forma de Procesamiento
Digitalizar las tablas de los formularios escaneados, las listas de control o los registros de censura.
Automatización del flujo de trabajo
Feed datos de tabla estructurados directamente en sus aplicaciones de negocio, herramientas de BI o bases de datos.
Desafíos y soluciones comunes
Desafío 1: Pobre calidad o tablas complejas
Solución: Utilice imágenes de alta resistencia y prueba en ensayos. Preproceso para mejorar la claridad.
Desafío 2: Tablas rotadas o desviadas
Solución: Desquea las imágenes antes de procesar; utilice DetectAreasMode.TABLE.
Desafío 3: Reportaciones multi-páginas
Solución: Añade cada página como una entrada separada para el procesamiento de batch.
Consideraciones de rendimiento
- Proceso de batch para la velocidad
- Usar escaneos de alta calidad/fotografías
- Disposición de objetos OCR después de grandes carreras
Mejores Prácticas
- Validar el rendimiento antes de la integración
- Configuraciones de reconocimiento de la tabla como sea necesario
- Backup de datos originales y digitalizados
- Testar con muestras reales antes de implantar
Escenarios avanzados
Escenario 1: Extracción de mesa multilingüe
settings.Language = Language.German;
Escenario 2: Exportación a JSON para los tubos de datos
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Conclusión
ASPOSE.OCR Tabla a texto para .NET convierte las imágenes y los scans en datos de tabla estructurados ejecutables, listos para análisis, informes y automatización.
Ver más muestras de código de reconocimiento de la tabla en el Aspose.OCR para .NET API Referencia .