Cómo extraer datos estructurados de tablas y formas en imágenes

Cómo extraer datos estructurados de tablas y formas en imágenes

Extracción de datos de tablas escaneadas o formularios rellenados es esencial para la automatización de negocios, el informe y el cumplimiento. Aspose.OCR Tabla a texto para .NET simplifica este proceso, detectando con precisión la estructura de células y campos y exportando a formatos editables.

Problemas del mundo real

Las empresas a menudo reciben facturas, informes o formularios como imágenes o escaneos.Las entradas manuales de datos de tabla o campos de formulario son lentas, prohibidas de errores y costosas en escala.

Revisión de Soluciones

Con Tabla a Texto para .NET, puede extraer datos estructurados -incluyendo líneas, columnas y valores de campo- directamente de las imágenes.

Prerequisitos

  • Visual Studio 2019 o más tarde
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR para .NET de NuGet
  • Habilidades básicas C#
PM> Install-Package Aspose.OCR

Implementación paso a paso

Paso 1: Instalar y configurar Aspose.OCR

using Aspose.OCR;

Paso 2: Preparar tablas o formas de imágenes

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Paso 3: Configure la configuración de reconocimiento para tablas/formas

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Paso 4: Extraer datos de tabla o formulario

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Paso 5: Exportaciones estructuradas

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Paso 6: Tratar errores y validar resultados

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Paso 7: Optimización de las variaciones de tabla/forma

  • Test en muestras con diferentes límites, fuentes o placementos de campo
  • Instalaciones de preprocesamiento para la mejor detección

Paso 8: Extracción de batch automática

Procesar todas las imágenes relevantes en una carpeta:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Paso 9: Un ejemplo completo

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Usar Casos y Aplicaciones

La facturación y la automatización de los informes

Extraer datos financieros para contabilidad o análisis.

Formulario de encuentro y registro

Pull respuestas estructuradas para sistemas CRM, ERP o BI.

Conformidad y auditoría

Extracción y validación automática de datos de los formularios o tablas presentados.

Desafíos y soluciones comunes

Desafío 1: Fronteras de mesa irregulares o layouts

Solución: Utilice preprocesamiento y tonificación de muestras para mejorar la detección.

Desafío 2: Contenido mixto (Text y tablas)

Solución: Run con AUTO o separado por tipo de imagen para los mejores resultados.

Desafío 3: Formas complejas con muchos campos

Solución: Test y reconocimiento de tweak para las formas de alta densidad.

Consideraciones de rendimiento

  • El reconocimiento de la mesa es más intenso por CPU; los trabajos de monitoreo
  • Valida los resultados para los flujos de trabajo críticos
  • Exportación de batch para la integración con otras herramientas

Mejores Prácticas

  • Validar los datos estructurados en las muestras antes de escalar
  • Seguro y archivo tanto las imágenes de fuente y los resultados extraídos
  • Actualizar Aspose.OCR regularmente para mejoras de precisión
  • Instalaciones Tune para nuevos layouts de documentos

Escenarios avanzados

Escenario 1: Exportación a bases de datos o herramientas BI

// Use JSON or Excel export for integration with data pipelines

Escenario 2: Extracción en tiempo real en aplicaciones web

// Integrate extraction logic into ASP.NET or workflow API

Conclusión

Aspose.OCR Tabla a texto para .NET le permite automatizar la extracción estructurada de datos de imágenes y formularios, apoyando todo desde la automatización de negocios hasta la conformidad y la análisis.

Para las características de extracción de mesa avanzadas, visite el Aspose.OCR para .NET API Referencia .

 Español