Как подготовить сканированные изображения для OCR с Deskew с помощью .NET

Как подготовить сканированные изображения для OCR с Deskew с помощью .NET

Точная ОКР (оптическая распознавательная характеристика) начинается с идеально согласованных изображений. Скенированные или ротационные сканирования снижают точность ОЦР, поэтому отклонение является критическим шагом предварительной обработки. Aspose.Imaging для .NET позволяет выстраивать документы/фотографии для лучших результатов в любом внешнем инструменте OCR.

Реальные мировые проблемы

Двигатели OCR лучше всего работают на хорошо сплоченных изображениях. Крокированные сканирования вызывают пропущенные символы или ошибки в тексте. Ручное упрямление слишком медленно для больших разрядов.

Решение обзор

Используйте Aspose.Imaging для .NET для автоматического отключения сканированных изображений. Сохраните их в беспроблемном формате, таких как PNG или TIFF, готовы к импортированию в программное обеспечение OCR по вашему выбору (Аспозе.ОКР, Tesseract и т.д.).

Предупреждения

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • Aspose.Imaging для .NET от NuGet
  • Сканированный документ или изображение (JPEG, PNG, TIFF и т.д.)
PM> Install-Package Aspose.Imaging

Step-by-Step реализация

Шаг 1: Отключите сканированное изображение

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Шаг 2: Перейти десквированные изображения на любой двигатель OCR

  • Используйте свой предпочтительный инструмент OCR для распознавания текста с изображения.
  • Пример: импорт scan_for_ocr_deskewed.png в ваш OCR трубопровод или программное обеспечение (Aspose.OCR, Tesseract, ABBYY и т.д.).

Шаг 3: Обзор и рефинансирование

  • Проверьте результаты ОКР. Если точность низкая, корректируйте настройки отверстия/пакетов или качество сканирования.
  • Рассмотрим процессы комплекта для всех новых сканеров, чтобы ваш рабочий поток цифровизации был эффективным.

Используйте случаи и приложения

  • Дигитализация архивов, рецептов, контрактов или форм для поиска текста
  • Подготовка бизнес-документов для соблюдения и аудита
  • Повышение точности в любой ОКР или документальной автоматизации трубопровода

Общие вызовы и решения

Открытые изображения по-прежнему вызывают ошибки в ОКР: Попробуйте различные цвета фонов, предварительно фильтруйте для шума или сканируйте с более высокой резолюцией.

Выходные файлы слишком большие: Используйте TIFF с компрессией или PNG, если необходима прозрачность.

Смесь форматов изображения: Нормализуйте все сканирования в беспроблемный формат перед ОКР.

Лучшие практики

  • Всегда используйте форматы изображения без убытков для OCR
  • Сохранить оригинальные и обработанные изображения для ссылки
  • Документируйте свой рабочий поток и цифровизацию для команды

FAQ

**Q: Могу ли я отключить все изображения в папке?**Ответ: Да, введите этот код в круг над всеми файлами, как показано в предыдущих примерах.

**Q: Какой цвет фонов лучше всего работает для OCR?**Ответ: Белый является самым безопасным для текста; используйте прозрачный для графики или соответствует вашему документу.

** Q: Хорошо ли компрессировать файлы после отключения?**Ответ: Используйте бесконечную компрессию, чтобы избежать артефактов, которые снижают точность ОКР.

Заключение

Открытие с Aspose.Imaging для .NET является обязательным условием надежного OCR, цифровизации и бизнес-автоматизации. Дайте свой трубопровод чистым, быстрым и точным! Aspose.Imaging для .NET API Reference .

 Русский