Как подготовить сканированные изображения для OCR с Deskew с помощью .NET
Точная ОКР (оптическая распознавательная характеристика) начинается с идеально согласованных изображений. Скенированные или ротационные сканирования снижают точность ОЦР, поэтому отклонение является критическим шагом предварительной обработки. Aspose.Imaging для .NET позволяет выстраивать документы/фотографии для лучших результатов в любом внешнем инструменте OCR.
Реальные мировые проблемы
Двигатели OCR лучше всего работают на хорошо сплоченных изображениях. Крокированные сканирования вызывают пропущенные символы или ошибки в тексте. Ручное упрямление слишком медленно для больших разрядов.
Решение обзор
Используйте Aspose.Imaging для .NET для автоматического отключения сканированных изображений. Сохраните их в беспроблемном формате, таких как PNG или TIFF, готовы к импортированию в программное обеспечение OCR по вашему выбору (Аспозе.ОКР, Tesseract и т.д.).
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- Aspose.Imaging для .NET от NuGet
- Сканированный документ или изображение (JPEG, PNG, TIFF и т.д.)
PM> Install-Package Aspose.Imaging
Step-by-Step реализация
Шаг 1: Отключите сканированное изображение
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Шаг 2: Перейти десквированные изображения на любой двигатель OCR
- Используйте свой предпочтительный инструмент OCR для распознавания текста с изображения.
- Пример: импорт
scan_for_ocr_deskewed.png
в ваш OCR трубопровод или программное обеспечение (Aspose.OCR, Tesseract, ABBYY и т.д.).
Шаг 3: Обзор и рефинансирование
- Проверьте результаты ОКР. Если точность низкая, корректируйте настройки отверстия/пакетов или качество сканирования.
- Рассмотрим процессы комплекта для всех новых сканеров, чтобы ваш рабочий поток цифровизации был эффективным.
Используйте случаи и приложения
- Дигитализация архивов, рецептов, контрактов или форм для поиска текста
- Подготовка бизнес-документов для соблюдения и аудита
- Повышение точности в любой ОКР или документальной автоматизации трубопровода
Общие вызовы и решения
Открытые изображения по-прежнему вызывают ошибки в ОКР: Попробуйте различные цвета фонов, предварительно фильтруйте для шума или сканируйте с более высокой резолюцией.
Выходные файлы слишком большие: Используйте TIFF с компрессией или PNG, если необходима прозрачность.
Смесь форматов изображения: Нормализуйте все сканирования в беспроблемный формат перед ОКР.
Лучшие практики
- Всегда используйте форматы изображения без убытков для OCR
- Сохранить оригинальные и обработанные изображения для ссылки
- Документируйте свой рабочий поток и цифровизацию для команды
FAQ
**Q: Могу ли я отключить все изображения в папке?**Ответ: Да, введите этот код в круг над всеми файлами, как показано в предыдущих примерах.
**Q: Какой цвет фонов лучше всего работает для OCR?**Ответ: Белый является самым безопасным для текста; используйте прозрачный для графики или соответствует вашему документу.
** Q: Хорошо ли компрессировать файлы после отключения?**Ответ: Используйте бесконечную компрессию, чтобы избежать артефактов, которые снижают точность ОКР.
Заключение
Открытие с Aspose.Imaging для .NET является обязательным условием надежного OCR, цифровизации и бизнес-автоматизации. Дайте свой трубопровод чистым, быстрым и точным! Aspose.Imaging для .NET API Reference .