Как извлечь табличные данные из изображений с помощью Aspose.OCR
С помощью Aspose.OCR Table to Text для .NET можно автоматизировать извлечение структурированных табличных данных из изображений — экономить время, уменьшать ошибки и обеспечивать беспроводную интеграцию с базами данных, Excel или инструментами отчетности.
Реальные мировые проблемы
Бизнес зачастую получает таблицы в счетах, отчётах или форматах, таких как изображения или сканирования. Ручно перегрузка этих данных в шины или аналитические платформы неэффективна и подвергается ошибке, особенно для больших объемов или сложных таблиц.
Решение обзор
ASPOSE.OCR Table to Text для .NET автоматизирует распознавание таблицы и извлечение данных из изображений, точно идентифицируя структуру клеток и содержимое. Это позволяет трансформировать сканированные или фотографируемые таблички в структурированный, поисковый и редактируемый формат с минимальным кодом.
Предупреждения
Прежде чем начать, вам понадобится:
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- Основное знание C#
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Инсталляция и настройка Aspose.OCR
Добавьте пакет Aspose.OCR и включайте необходимые названия:
using Aspose.OCR;
Шаг 2: Подготовка табличных изображений
Добавьте один или несколько табличных изображений к вашему входу. для выделения комплекта используйте несколько файлов.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
Шаг 3: Настройка распознавания таблицы
Возможность режима обнаружения таблицы для обеспечения точной распознавания структуры.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
Шаг 4: Продолжайте процесс распознавания стола
Идентифицировать таблицы с конфигурированными настройками:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Шаг 5: Экспорт и использование табличных данных
Сохранить или обрабатывать признанные табличные данные. Вы можете экспортировать в текст, Excel, JSON или другие форматы.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
Шаг 6: Добавить обработку ошибок
Добавить обработку исключений для создания прочных решений.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Шаг 7: Оптимизация для сложных таблиц
- Используйте сканирование/фотографию высокого разрешения для точного обнаружения структуры
- Тест с различными расположениями стола (межными клетками, многолинейными заголовками, границами)
- Тонные настройки распознавания, как это необходимо
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
Шаг 8: Полный рабочий пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Используйте случаи и приложения
Финансовые отчеты и счета
Экстрактируйте транзакционные таблицы из изображений в системы Excel или базы данных автоматически.
Исследования и аналитики
Цифровывать таблицы из сканированных публикаций или анкетных форм для анализа данных.
Автоматическая миграция данных
Мигрируйте наследственные документы или скенированные бумажные записи в современные структурируемые форматы.
Общие вызовы и решения
Проблема 1: Блюри или сложные табличные изображения
Решение: Используйте более четкие изображения или эксперименты с предварительной обработкой для улучшения распознавания структуры.
Проблема 2: Нестандартные расположения столов
Решение: Проверьте и корректируйте настройки для сложных расположений или неограниченных таблиц.
Проблема 3: Большие батареи или смешанные виды изображений
Решение: Используйте обработку комплектов и сканирование каталогов для автоматизации выделения из многих файлов.
Рассмотрим производительность
- Используйте хорошо освещенные, яркие изображения
- Батч-процесс для эффективности
- Установка ОКР-объектов после использования
Лучшие практики
- Всегда проверяйте экспортированные табличные данные перед дальнейшей обработкой
- Препроцесс изображений для оптимального обнаружения структуры
- Безопасность и резервное копирование оригинальных сканировок/изображений
- Используйте правильный формат экспорта для вашего рабочего потока (CSV, XLSX, JSON)
Развитые сценарии
Сценарий 1: Смешанные языковые таблицы экстракции
settings.Language = Language.Chinese;
Сценарий 2: Сочетание таблицы и экстракции текста
settings.DetectAreasMode = DetectAreasMode.COMBINE;
Заключение
ASPOSE.OCR Table to Text для .NET преобразует таблицы изображений в структурированные, редактируемые данные — не требуется ручного ввода. ускоряет финансовые отчеты, аналитики и цифровое архивирование с точным, автоматизированным табличным извлечением.
Для получения дополнительных примеров и технических деталей посетите ASPOSE.OCR для .NET API .