Как извлечь таблицы и табличные данные из изображений с помощью Aspose.OCR
Экстракция таблиц из изображений, форм или скенированных отчетов является сложной задачей — ручное ретипирование медленно и без ошибок. ASPOSE.OCR Table to Text for .NET автоматизирует выделение и структурирование табличных данных из картин и фотографий.
Реальные мировые проблемы
Финансовые отчеты, формы опроса и научные результаты часто застряли в сканированных таблицах или изображениях. Ручно воспроизведение этих данных теряет время и риски введения ошибок.
Решение обзор
ASPOSE.OCR для .NET может точно обнаружить, извлечь и конвертировать таблицы из изображений или скенированных PDF-файлов в машиночитаемые форматы — идеально подходит для Excel, отчетности или автоматизации рабочего потока.
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- Основное знание C#
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Инсталляция и настройка Aspose.OCR
using Aspose.OCR;
Шаг 2: Сканирование или фотографирование изображений, содержащих таблицы
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
Шаг 3: Настройка распознавания таблицы
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
Шаг 4: Продолжайте процесс экстракции стола
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Шаг 5: Экспортные таблицы данных
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
Шаг 6: Добавить обработку ошибок и валидацию
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Шаг 7: Оптимизация для сложных, вращаемых или многостраничных таблиц
- Препроцесс изображений к дескеу или урожаю
- Используйте сканирование с высоким разрешением или фотографии
- Для многостраничных PDF-файлов добавьте каждую страницу в качестве отдельного ввода
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
Шаг 8: Полный пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Используйте случаи и приложения
Финансовые и научные отчеты
Выводить таблицы из финансовых отчетов, результатов лаборатории или исследовательских документов для моментального анализа в Excel.
Опрос и форма обработки
Цифровывать таблицы из сканированных форм, списков или цензурных записей.
Автоматизация рабочего потока
Сделайте структурированные табличные данные непосредственно в бизнес-приложения, инструменты BI или базы данных.
Общие вызовы и решения
Проблема 1: Плохое качество или сложные таблицы
Решение: Используйте изображения высокого уровня и тестируйте на шаблонах.
Проблема 2: крутящиеся или скрученные таблицы
Решение: Сделайте изображения перед обработкой; используйте DetectAreasMode.TABLE.
Проблема 3: Многостраничные отчеты
Решение: Добавьте каждую страницу в качестве отдельного ввода для обработки комплектов.
Рассмотрим производительность
- Батч-процесс для скорости
- Используйте качественные сканировки/фотографии
- Наличие объектов ОКР после крупных прогулок
Лучшие практики
- Проверка результатов до интеграции
- Настройки распознавания таблицы, как это необходимо
- Оригинальные и цифровые данные
- Тест с реальными образцами перед внедрением
Развитые сценарии
Сценарий 1: Многоязычная табличная экстракция
settings.Language = Language.German;
Сценарий 2: Экспорт в JSON для трубопроводов данных
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
Заключение
ASPOSE.OCR Table to Text для .NET превращает изображения и сканирование в действующие, структурированные табличные данные — готовые к анализу, отчету и автоматизации.
Смотреть больше образцов кода распознавания таблицы в ASPOSE.OCR для .NET API .