Como extrair dados de tabela de imagens com Aspose.OCR

Como extrair dados de tabela de imagens com Aspose.OCR

A extração de tabelas de imagens escaneadas ou fotografadas é muitas vezes um processo manual, com erros. com a Aspose.OCR Tabela para texto para .NET, você pode automatizar a extraição de dados estruturados da tabela das imagens – economizar tempo, reduzir errores, e permitir a integração sem fio com bases de datos, Excel, ou ferramentas de relatório.

Problemas do mundo real

As empresas frequentemente recebem tabelas em facturas, relatórios ou formulários como imagens ou scans. manualmente reintroduzir esses dados em folhetos ou plataformas de análise é ineficaz e errado, especialmente para grandes volumes ou tábuas complexas.

Solução Overview

A ASPOSE.OCR Table to Text para .NET automatiza o reconhecimento de tabelas e a extração de dados das imagens, identificando com precisão a estrutura celular e o conteúdo. Isso permite transformar as tábuas escaneadas ou fotografadas em formatos estruturados, procuráveis e editáveis com código mínimo.

Pré-requisitos

Antes de começar, você precisará:

  • Visual Studio 2019 ou posterior
  • .NET 6.0 ou posterior (ou .Net Framework 4.6.2+)
  • Aspose.OCR para .NET de NuGet
  • Conhecimento básico C#
PM> Install-Package Aspose.OCR

Implementação passo a passo

Passo 1: Instale e Configure Aspose.OCR

Adicione o pacote Aspose.OCR e inclua os espaços de nomes necessários:

using Aspose.OCR;

Passo 2: Prepare as entradas da tabela

Adicione uma ou mais imagens de tabela à sua entrada.Para extração de batch, use vários arquivos.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Passo 3: Configure as configurações de reconhecimento da tabela

Permite o modo de deteção de mesa para garantir que a estrutura seja reconhecida com precisão.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Passo 4: execute o processo de reconhecimento da mesa

Reconheça as tabelas com as configurações configuradas:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Exportação e utilização de dados de tabela

Você pode exportar para texto, Excel, JSON, ou outros formatos.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Passo 6: Adicionar erro de gestão

Adicione tratamento de exceção para construir soluções robustas.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Optimize para tabelas complexas

  • Use scans/fotografias de alta resolução para detecção estrutural precisa
  • Teste com vários layouts de mesa (células misturadas, cabeçalhos multi-line, fronteiras)
  • Tune configurações de reconhecimento conforme necessário
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Passo 8: Exemplo de trabalho completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Use Casos e Aplicações

Relatórios financeiros e contas

Extrair tabelas de transação de imagens para o Excel ou sistemas de banco de dados automaticamente.

Pesquisa e Análise

Digitalize tabelas de publicações escaneadas ou formulários de pesquisa para análise de dados.

Migração automática de dados

Migra documentos de herança ou registros de papel escaneados para formatos modernos estruturados.

Desafios comuns e soluções

Desafio 1: Blurry ou imagens de mesa complexas

** Solução:** Use imagens mais claras ou experimentos com pré-processamento para melhorar o reconhecimento da estrutura.

Título 2: Layouts de mesa não padrão

Solução: Teste e ajuste as configurações para layouts complexos ou tabelas sem fronteiras.

Desafio 3: Grandes batches ou tipos de imagem mista

Solução: Use o processamento de batch e o scan de diretórios para automatizar a extração de muitos arquivos.

Considerações de desempenho

  • Use imagens bem iluminadas e de alta qualidade
  • Processos de batch para eficiência
  • Dispõe objetos OCR após o uso

Melhores Práticas

  • Verifique sempre os dados da tabela exportados antes do processamento adicional
  • Imagens pré-processadas para a detecção da estrutura ideal
  • Secure e backup de scanners originais / imagens
  • Use o formato de exportação certo para o seu fluxo de trabalho (CSV, XLSX, JSON)

Os cenários avançados

Scenário 1: Extracção de mesa de língua mixta

settings.Language = Language.Chinese;

Scenário 2: Combinar tabela e extração de texto

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Conclusão

Aspose.OCR Table to Text for .NET transforma as tabelas de imagem em dados estruturados, editáveis – sem entrada manual necessária.

Para mais exemplos e detalhes técnicos, visite o Aspose.OCR para .NET API Referência .

 Português