Как выращивать сканированные документы для OCR в .NET

Как выращивать сканированные документы для OCR в .NET

При подготовке сканированных документов для Optical Character Recognition (OCR), необходимо собрать изображения, чтобы сосредоточиться на тяжелых областях текста.Кропирование нерелевантных частей документа гарантирует, что программное обеспечение OCR может экстрактировать текст более точно и эффективно. Aspose.Imaging для .NET обеспечивает необходимые инструменты для сооружения сканированных документов и подготовки их к обработке OCR.

Преимущества раскрытия сканированных документов для OCR

  • Улучшенная точность:- ОКР фокусирует усилия на соответствующих текстовых секциях, избегая шума или нерелевантного контента.

  • Сниженное время обработки:- Растение изображения для минимизации обработанной площади, ускоряя процесс ОКР.

  • Лучший текст экстракции:- Убедитесь, что текст правильно сформирован и хорошо сформулирован для двигателей OCR.

Преимущества: Установить Aspose.Imaging

  • Инсталляция The .NET SDK в вашей системе.
  • Добавить Aspose.Imaging к вашему проекту: dotnet add package Aspose.Imaging
  • Получите измеренную лицензию и конфигурируйте ее с помощью SetMeteredKey().

Step-by-Step Guide to Crop Scanned Documents для OCR

Шаг 1: Настройка метризованной лицензии

Настройка Aspose.Imaging для неограниченного доступа к функциям скопления.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Шаг 2: Загрузите сканированный документ

Загрузите скенированный файл документа, который должен быть скопирован для подготовки к ОКР.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Шаг 3: Определите область урожая

Определите прямоугольную область вокруг текста, который нужно вытянуть.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Шаг 4: Применение урожая

Используйте Crop() Метод извлечения требуемого текстового раздела из изображения.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Шаг 5: Сохранение кропного изображения

Сохраните накопленное изображение для обработки OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Распространение и использование

  • Системы обработки документов:- Введение скопления в автоматизированных системах сканирования документов для подготовки изображений для ОКР.

  • Интеграция рабочего потока OCR:- Документы для урожая до их передачи на двигатели OCR для более быстрой и точной текстовой экстракции.

  • Валидация выхода:- Откройте накопленное изображение, чтобы убедиться, что текст четко видимый и правильно сформулирован.

Реальные мировые приложения

  • Скенирование юридических и медицинских документов:- Растение сканированные контракты или медицинские записи, чтобы сосредоточиться на важном тексте для обработки ОКР.

  • Архивные системы:- Подготовка исторических документов для экстракции текста и цифровизации.

  • Услуги электронного управления:- Автоматизировать экстракцию текста из сканированных форм или приложений.

Общие проблемы и фиксации

  • Неправильная зона урожая:- Убедитесь, что Rectangle Координаты соответствуют разделу с текстом.

  • Низкое качество изображений:- Убедитесь, что сканированное изображение имеет достаточно высокую разрешение для точности OCR.

  • Лицензии на файлы:- Проверьте, что каталоги выхода имеют соответствующие письменные разрешения.

Заключение

Используя Aspose.Imaging для .NET, вы можете легко собрать скенированные документы, чтобы сосредоточиться на важных секциях для обработки ОКР, повышения точности и эффективности.

 Русский