Как автоматизировать ввод данных из форм с помощью Aspose.OCR
С помощью Aspose.OCR для .NET можно цифровизировать данные формы из сканирования или фотографий, уменьшая ошибки и превращая неструктурированные документы в структурируемые, редактируемые данные.
Реальные мировые проблемы
Ручная форма ввода данных медленна, дорогая и очень подвержена ошибкам, особенно в крупных организациях, научных исследованиях или логистике. рукопись, разнообразные расположения и смешанные типы полей делают автоматизацию сложной без мощных инструментов OCR.
Решение обзор
Aspose.OCR для .NET обеспечивает гибкие настройки распознавания для извлечения как печатанного, так и рукописанного текста из форм, процессов и результатов, структурированных по результатам — идеально подходит для бизнеса, здравоохранения, человеческих ресурсов, образования и многое другое.
Предупреждения
Прежде чем начать, убедитесь, что у вас есть:
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- Опыт C#
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Инсталляция и настройка Aspose.OCR
using Aspose.OCR;
Шаг 2: Сканировать или фотографировать свои формы
Подготовите свои формы изображения (JPEG, PNG, PDF или TIFF). Вы можете добавить несколько файлов для выделения комплекта.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("form1.png");
input.Add("form2.jpg");
Шаг 3: Установите настройки распознавания
Регулировать настройки для выявления языка, расположения и (при необходимости) рукописи.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // For complex or multi-field forms
Шаг 4: Продолжайте процесс извлечения данных
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Шаг 5: Экспорт или использование цифровых данных
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Extracted text
result.Save("form_data.txt", SaveFormat.Text); // Save as plain text
result.Save("form_data.xlsx", SaveFormat.Xlsx); // Save as spreadsheet
}
Шаг 6: Добавить обработку ошибок
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Шаг 7: Оптимизация для оформления и рукописи
- Для рукописанных полей используйте более высокие сканировки ДПИ и корректируйте языковые настройки
- Используйте DetectAreasMode.TABLE для табличных форм или DOCUMENT для разнообразных размеров
- Тест с образцами для настройки тонуса
// Example: Add all images from a directory
foreach (string file in Directory.GetFiles("./forms", "*.png"))
{
input.Add(file);
}
Шаг 8: Полный пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("form1.png");
input.Add("form2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("form_data.txt", SaveFormat.Text);
result.Save("form_data.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Используйте случаи и приложения
Здоровье и HR
Экстракт и цифровизация форм данных для приема пациентов, заявок на работу или опросов.
Исследование и образование
Автоматизация анкеты и обработка опросов для более быстрой аналитики.
Логистика и бизнес
Цифровывать рассылки доставки, формы инспекции или контрольные списки запасов.
Общие вызовы и решения
Проблема 1: Ручнописанные или низкокачественные поля
Решение: Используйте высококачественные сканирования и корректируйте настройки распознавания для рукописи.
Проблема 2: нерегулярное оформление форм
Решение: Используйте режим DOCUMENT для сложных расположений и тестируйте на образцах.
Проблема 3: Батч экстракция
Решение: Используйте обработку комплектов на основе каталога для форм высокого объема.
Рассмотрим производительность
- Процесс батареи для скорости и масштабируемости
- Установка ОКР-объектов после использования
- Проверка результатов до интеграции
Лучшие практики
- Обзор цифровых данных для точности перед автоматизацией
- Тонные настройки для каждого типа шаблона формы
- Архив оригинала для аудита
- Регулярно обновляйте Aspose.OCR для улучшений функций
Развитые сценарии
Сценарий 1: Извлечение рукописи из форм
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
// Optionally, pre-filter for handwriting using image preprocessing
Сценарий 2: Экспорт в JSON для импорта базы данных
foreach (RecognitionResult result in results)
{
result.Save("form_data.json", SaveFormat.Json);
}
Заключение
Aspose.OCR для .NET автоматики формируют извлечение данных — устранение ручного ввода и ускорение деловых, исследовательских или административных рабочих потоков.
Посмотреть более продвинутые образцы использования и кода на ASPOSE.OCR для .NET API .