Как извлечь структурированные данные из таблиц и форм в изображениях

Как извлечь структурированные данные из таблиц и форм в изображениях

Экстракция данных из сканированных таблиц или заполненных форм необходима для бизнес-аутоматизации, отчетности и соответствия. Aspose.OCR Table to Text for .NET упрощает этот процесс, точно выявляя структуру клеток и полей и экспортируя их в редактируемые форматы.

Реальные мировые проблемы

Бизнес часто получает счета, отчеты или формы в виде изображений или сканирования. Ручное введение табличных данных или форм полей является медленным, ошибочным и дорогостоящим по масштабу.

Решение обзор

С помощью таблицы в текст для .NET можно извлечь структурированные данные, включая рядки, колонны и полевые значения, непосредственно из изображений.

Предупреждения

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
  • Основные навыки C#
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Инсталляция и настройка Aspose.OCR

using Aspose.OCR;

Шаг 2: Подготовить таблицу или форму изображений

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");

Шаг 3: Настройка распознавательных настроек для таблиц / форм

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;

Шаг 4: Сделайте таблицу или форму данных

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Шаг 5: Экспорт структурированного выхода

foreach (RecognitionResult result in results)
{
    result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
    result.Save("output_table.json", SaveFormat.Json); // JSON
    result.Save("output_table.txt", SaveFormat.Text);  // Text
}

Шаг 6: Управляйте ошибками и подтверждайте результаты

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Шаг 7: Оптимизация для табличных/форматных вариаций

  • Тест на образцах с различными границами, шрифтами или полями
  • Настройки предварительной обработки для наилучшего обнаружения

Шаг 8: Автоматическое извлечение батарей

Обработка всех соответствующих изображений в папке:

foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
    input.Add(file);
}

Шаг 9: Полный пример

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("scanned_invoice.png");
            input.Add("filled_form.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("output_table.xlsx", SaveFormat.Xlsx);
                result.Save("output_table.json", SaveFormat.Json);
                result.Save("output_table.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Используйте случаи и приложения

Автоматизация счета и отчетов

Экстракт финансовых данных для бухгалтерского учета или анализа.

Опрос и регистрационные формы

Пул структурированных ответов для систем CRM, ERP или BI.

Соответствие и аудит

Автоматическое извлечение и валидация данных из представленных форм или таблиц.

Общие вызовы и решения

Проблема 1: нерегулярные табличные границы или расположения

Решение: Используйте предварительную обработку и тонирование образца для улучшения обнаружения.

Проблема 2: Смешанный контент (текст и таблицы)

Решение: Используйте AUTO или отдельно по типу изображения для получения наилучших результатов.

Проблема 3: Комплексные формы с многочисленными полями

*Решение: Тест и тояк распознавания для форм высокой плотности.

Рассмотрим производительность

  • Табельное распознавание более интенсивно в процессоре; мониторинг бач рабочих мест
  • Проверка результатов для критических рабочих потоков
  • Бач-экспорт для интеграции с другими инструментами

Лучшие практики

  • Проверьте структурированные данные на образцах перед сканированием
  • Безопасность и архивирование как источника изображений, так и извлеченных выходов
  • Регулярно обновляется Aspose.OCR для улучшения точности
  • Настройки тунне для новых оформлений документов

Развитые сценарии

Сценарий 1: Экспорт в базу данных или инструменты BI

// Use JSON or Excel export for integration with data pipelines

Сценарий 2: Экстракция в режиме реального времени в веб-приложении

// Integrate extraction logic into ASP.NET or workflow API

Заключение

ASPOSE.OCR Table to Text для .NET позволяет автоматизировать структурированное извлечение данных из изображений и форм, поддерживая все от бизнес-аутоматизации до соответствия и анализа.

Для продвинутых функций выделения стола, посетите ASPOSE.OCR для .NET API .

 Русский