Cómo extraer tablas y datos tabulares de imágenes con Aspose.OCR

Cómo extraer tablas y datos tabulares de imágenes con Aspose.OCR

La extracción de tablas de imágenes, formularios o informes escaneados es desafiante – la retipulación manual es lenta y prohibida por errores. Aspose.OCR Tabla a texto para .NET automatiza la extración y estructura de los datos de la tabla de las imágenes y las fotos.

Problemas del mundo real

Las declaraciones financieras, los formularios de encuestas y los resultados científicos a menudo se encuentran atrapados en tablas o imágenes escaneadas.Recrear manualmente estos datos pierde horas y riesgos de introducir errores.

Revisión de Soluciones

Aspose.OCR para .NET puede detectar, extraer y convertir con precisión las tablas de imágenes o PDFs escaneados en formatos que se pueden leer por máquina, perfectos para Excel, informes o automatización del flujo de trabajo.

Prerequisitos

  • Visual Studio 2019 o más tarde
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR para .NET de NuGet
  • Conocimiento básico C#
PM> Install-Package Aspose.OCR

Implementación paso a paso

Paso 1: Instalar y configurar Aspose.OCR

using Aspose.OCR;

Paso 2: Escanear o fotografiar imágenes que contienen tablas

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Paso 3: Configure la configuración de la tabla de reconocimiento

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Paso 4: Ejecutar el proceso de extracción de mesa

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Paso 5: Datos de la tabla de exportación

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Paso 6: Agregar el tratamiento de errores y la validación

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Paso 7: Optimizar para tablas complejas, rotadas o múltiples páginas

  • Imágenes preprocesadas para descuidar o cultivar
  • Utilice escaneos de alta resolución o fotos
  • Para PDFs multipáginas, añade cada página como una entrada separada
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Paso 8: El ejemplo completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Usar Casos y Aplicaciones

Informes financieros y científicos

Extraer tablas de las declaraciones financieras, resultados de laboratorio o documentos de investigación para análisis instantáneo en Excel.

Investigación y Forma de Procesamiento

Digitalizar las tablas de los formularios escaneados, las listas de control o los registros de censura.

Automatización del flujo de trabajo

Feed datos de tabla estructurados directamente en sus aplicaciones de negocio, herramientas de BI o bases de datos.

Desafíos y soluciones comunes

Desafío 1: Pobre calidad o tablas complejas

Solución: Utilice imágenes de alta resistencia y prueba en ensayos. Preproceso para mejorar la claridad.

Desafío 2: Tablas rotadas o desviadas

Solución: Desquea las imágenes antes de procesar; utilice DetectAreasMode.TABLE.

Desafío 3: Reportaciones multi-páginas

Solución: Añade cada página como una entrada separada para el procesamiento de batch.

Consideraciones de rendimiento

  • Proceso de batch para la velocidad
  • Usar escaneos de alta calidad/fotografías
  • Disposición de objetos OCR después de grandes carreras

Mejores Prácticas

  • Validar el rendimiento antes de la integración
  • Configuraciones de reconocimiento de la tabla como sea necesario
  • Backup de datos originales y digitalizados
  • Testar con muestras reales antes de implantar

Escenarios avanzados

Escenario 1: Extracción de mesa multilingüe

settings.Language = Language.German;

Escenario 2: Exportación a JSON para los tubos de datos

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Conclusión

ASPOSE.OCR Tabla a texto para .NET convierte las imágenes y los scans en datos de tabla estructurados ejecutables, listos para análisis, informes y automatización.

Ver más muestras de código de reconocimiento de la tabla en el Aspose.OCR para .NET API Referencia .

 Español