Как извлечь таблицы и табличные данные из изображений с помощью Aspose.OCR

Как извлечь таблицы и табличные данные из изображений с помощью Aspose.OCR

Экстракция таблиц из изображений, форм или скенированных отчетов является сложной задачей — ручное ретипирование медленно и без ошибок. ASPOSE.OCR Table to Text for .NET автоматизирует выделение и структурирование табличных данных из картин и фотографий.

Реальные мировые проблемы

Финансовые отчеты, формы опроса и научные результаты часто застряли в сканированных таблицах или изображениях. Ручно воспроизведение этих данных теряет время и риски введения ошибок.

Решение обзор

ASPOSE.OCR для .NET может точно обнаружить, извлечь и конвертировать таблицы из изображений или скенированных PDF-файлов в машиночитаемые форматы — идеально подходит для Excel, отчетности или автоматизации рабочего потока.

Предупреждения

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
  • Основное знание C#
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Инсталляция и настройка Aspose.OCR

using Aspose.OCR;

Шаг 2: Сканирование или фотографирование изображений, содержащих таблицы

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");

Шаг 3: Настройка распознавания таблицы

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables

Шаг 4: Продолжайте процесс экстракции стола

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Шаг 5: Экспортные таблицы данных

foreach (RecognitionResult result in results)
{
    result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
    result.Save("table_data.csv", SaveFormat.Csv);   // CSV output
    result.Save("table_data.txt", SaveFormat.Text);  // Plain text output
}

Шаг 6: Добавить обработку ошибок и валидацию

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Шаг 7: Оптимизация для сложных, вращаемых или многостраничных таблиц

  • Препроцесс изображений к дескеу или урожаю
  • Используйте сканирование с высоким разрешением или фотографии
  • Для многостраничных PDF-файлов добавьте каждую страницу в качестве отдельного ввода
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
    input.Add(file);
}

Шаг 8: Полный пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("table1.jpg");
            input.Add("report_page.png");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.TABLE;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("table_data.xlsx", SaveFormat.Xlsx);
                result.Save("table_data.csv", SaveFormat.Csv);
                result.Save("table_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Используйте случаи и приложения

Финансовые и научные отчеты

Выводить таблицы из финансовых отчетов, результатов лаборатории или исследовательских документов для моментального анализа в Excel.

Опрос и форма обработки

Цифровывать таблицы из сканированных форм, списков или цензурных записей.

Автоматизация рабочего потока

Сделайте структурированные табличные данные непосредственно в бизнес-приложения, инструменты BI или базы данных.

Общие вызовы и решения

Проблема 1: Плохое качество или сложные таблицы

Решение: Используйте изображения высокого уровня и тестируйте на шаблонах.

Проблема 2: крутящиеся или скрученные таблицы

Решение: Сделайте изображения перед обработкой; используйте DetectAreasMode.TABLE.

Проблема 3: Многостраничные отчеты

Решение: Добавьте каждую страницу в качестве отдельного ввода для обработки комплектов.

Рассмотрим производительность

  • Батч-процесс для скорости
  • Используйте качественные сканировки/фотографии
  • Наличие объектов ОКР после крупных прогулок

Лучшие практики

  • Проверка результатов до интеграции
  • Настройки распознавания таблицы, как это необходимо
  • Оригинальные и цифровые данные
  • Тест с реальными образцами перед внедрением

Развитые сценарии

Сценарий 1: Многоязычная табличная экстракция

settings.Language = Language.German;

Сценарий 2: Экспорт в JSON для трубопроводов данных

foreach (RecognitionResult result in results)
{
    result.Save("table_data.json", SaveFormat.Json);
}

Заключение

ASPOSE.OCR Table to Text для .NET превращает изображения и сканирование в действующие, структурированные табличные данные — готовые к анализу, отчету и автоматизации.

Смотреть больше образцов кода распознавания таблицы в ASPOSE.OCR для .NET API .

 Русский