Как извлечь табличные данные из изображений с помощью Aspose.OCR

Как извлечь табличные данные из изображений с помощью Aspose.OCR

С помощью Aspose.OCR Table to Text для .NET можно автоматизировать извлечение структурированных табличных данных из изображений — экономить время, уменьшать ошибки и обеспечивать беспроводную интеграцию с базами данных, Excel или инструментами отчетности.

Реальные мировые проблемы

Бизнес зачастую получает таблицы в счетах, отчётах или форматах, таких как изображения или сканирования. Ручно перегрузка этих данных в шины или аналитические платформы неэффективна и подвергается ошибке, особенно для больших объемов или сложных таблиц.

Решение обзор

ASPOSE.OCR Table to Text для .NET автоматизирует распознавание таблицы и извлечение данных из изображений, точно идентифицируя структуру клеток и содержимое. Это позволяет трансформировать сканированные или фотографируемые таблички в структурированный, поисковый и редактируемый формат с минимальным кодом.

Предупреждения

Прежде чем начать, вам понадобится:

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
  • Основное знание C#
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Инсталляция и настройка Aspose.OCR

Добавьте пакет Aspose.OCR и включайте необходимые названия:

using Aspose.OCR;

Шаг 2: Подготовка табличных изображений

Добавьте один или несколько табличных изображений к вашему входу. для выделения комплекта используйте несколько файлов.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");

Шаг 3: Настройка распознавания таблицы

Возможность режима обнаружения таблицы для обеспечения точной распознавания структуры.

RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text

Шаг 4: Продолжайте процесс распознавания стола

Идентифицировать таблицы с конфигурированными настройками:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Шаг 5: Экспорт и использование табличных данных

Сохранить или обрабатывать признанные табличные данные. Вы можете экспортировать в текст, Excel, JSON или другие форматы.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Raw table as text
    result.Save("table.csv", SaveFormat.Csv); // Save as CSV
    result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}

Шаг 6: Добавить обработку ошибок

Добавить обработку исключений для создания прочных решений.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Шаг 7: Оптимизация для сложных таблиц

  • Используйте сканирование/фотографию высокого разрешения для точного обнаружения структуры
  • Тест с различными расположениями стола (межными клетками, многолинейными заголовками, границами)
  • Тонные настройки распознавания, как это необходимо
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
    input.Add(file);
}

Шаг 8: Полный рабочий пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.png");
            input.Add("table2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.DetectAreasMode = DetectAreasMode.TABLE;
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("table.csv", SaveFormat.Csv);
                result.Save("table.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Используйте случаи и приложения

Финансовые отчеты и счета

Экстрактируйте транзакционные таблицы из изображений в системы Excel или базы данных автоматически.

Исследования и аналитики

Цифровывать таблицы из сканированных публикаций или анкетных форм для анализа данных.

Автоматическая миграция данных

Мигрируйте наследственные документы или скенированные бумажные записи в современные структурируемые форматы.

Общие вызовы и решения

Проблема 1: Блюри или сложные табличные изображения

Решение: Используйте более четкие изображения или эксперименты с предварительной обработкой для улучшения распознавания структуры.

Проблема 2: Нестандартные расположения столов

Решение: Проверьте и корректируйте настройки для сложных расположений или неограниченных таблиц.

Проблема 3: Большие батареи или смешанные виды изображений

Решение: Используйте обработку комплектов и сканирование каталогов для автоматизации выделения из многих файлов.

Рассмотрим производительность

  • Используйте хорошо освещенные, яркие изображения
  • Батч-процесс для эффективности
  • Установка ОКР-объектов после использования

Лучшие практики

  • Всегда проверяйте экспортированные табличные данные перед дальнейшей обработкой
  • Препроцесс изображений для оптимального обнаружения структуры
  • Безопасность и резервное копирование оригинальных сканировок/изображений
  • Используйте правильный формат экспорта для вашего рабочего потока (CSV, XLSX, JSON)

Развитые сценарии

Сценарий 1: Смешанные языковые таблицы экстракции

settings.Language = Language.Chinese;

Сценарий 2: Сочетание таблицы и экстракции текста

settings.DetectAreasMode = DetectAreasMode.COMBINE;

Заключение

ASPOSE.OCR Table to Text для .NET преобразует таблицы изображений в структурированные, редактируемые данные — не требуется ручного ввода. ускоряет финансовые отчеты, аналитики и цифровое архивирование с точным, автоматизированным табличным извлечением.

Для получения дополнительных примеров и технических деталей посетите ASPOSE.OCR для .NET API .

 Русский