Как извлечь структурированные данные из таблиц и форм в изображениях
Экстракция данных из сканированных таблиц или заполненных форм необходима для бизнес-аутоматизации, отчетности и соответствия. Aspose.OCR Table to Text for .NET упрощает этот процесс, точно выявляя структуру клеток и полей и экспортируя их в редактируемые форматы.
Реальные мировые проблемы
Бизнес часто получает счета, отчеты или формы в виде изображений или сканирования. Ручное введение табличных данных или форм полей является медленным, ошибочным и дорогостоящим по масштабу.
Решение обзор
С помощью таблицы в текст для .NET можно извлечь структурированные данные, включая рядки, колонны и полевые значения, непосредственно из изображений.
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- Основные навыки C#
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Инсталляция и настройка Aspose.OCR
using Aspose.OCR;
Шаг 2: Подготовить таблицу или форму изображений
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
Шаг 3: Настройка распознавательных настроек для таблиц / форм
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
Шаг 4: Сделайте таблицу или форму данных
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Шаг 5: Экспорт структурированного выхода
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
Шаг 6: Управляйте ошибками и подтверждайте результаты
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Шаг 7: Оптимизация для табличных/форматных вариаций
- Тест на образцах с различными границами, шрифтами или полями
- Настройки предварительной обработки для наилучшего обнаружения
Шаг 8: Автоматическое извлечение батарей
Обработка всех соответствующих изображений в папке:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
Шаг 9: Полный пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Используйте случаи и приложения
Автоматизация счета и отчетов
Экстракт финансовых данных для бухгалтерского учета или анализа.
Опрос и регистрационные формы
Пул структурированных ответов для систем CRM, ERP или BI.
Соответствие и аудит
Автоматическое извлечение и валидация данных из представленных форм или таблиц.
Общие вызовы и решения
Проблема 1: нерегулярные табличные границы или расположения
Решение: Используйте предварительную обработку и тонирование образца для улучшения обнаружения.
Проблема 2: Смешанный контент (текст и таблицы)
Решение: Используйте AUTO или отдельно по типу изображения для получения наилучших результатов.
Проблема 3: Комплексные формы с многочисленными полями
*Решение: Тест и тояк распознавания для форм высокой плотности.
Рассмотрим производительность
- Табельное распознавание более интенсивно в процессоре; мониторинг бач рабочих мест
- Проверка результатов для критических рабочих потоков
- Бач-экспорт для интеграции с другими инструментами
Лучшие практики
- Проверьте структурированные данные на образцах перед сканированием
- Безопасность и архивирование как источника изображений, так и извлеченных выходов
- Регулярно обновляется Aspose.OCR для улучшения точности
- Настройки тунне для новых оформлений документов
Развитые сценарии
Сценарий 1: Экспорт в базу данных или инструменты BI
// Use JSON or Excel export for integration with data pipelines
Сценарий 2: Экстракция в режиме реального времени в веб-приложении
// Integrate extraction logic into ASP.NET or workflow API
Заключение
ASPOSE.OCR Table to Text для .NET позволяет автоматизировать структурированное извлечение данных из изображений и форм, поддерживая все от бизнес-аутоматизации до соответствия и анализа.
Для продвинутых функций выделения стола, посетите ASPOSE.OCR для .NET API .