Як підготувати скановані зображення для OCR з Deskew за допомогою .NET
Точна OCR (оптична розпізнавання персонажів) починається з ідеально узгоджених зображень. Скріплені або обертані скани знижують точність ОCR, тому відхилення є критичним кроком до переробки. Aspose.Imaging для .NET дозволяє стягувати документи / фотографії для кращих результатів в будь-якому зовнішньому інструменті ОКР.
Реальні проблеми світу
Двигуни OCR працюють найкраще на добре збалансованих зображеннях. Крукісні скани викликають відсутні персонажі або помилки в тексті. Ручне розтягування занадто повільне для великих штук.
Огляд рішення
Використовуйте Aspose.Imaging для .NET, щоб автоматично відключити скановані зображення. Зберегти їх у безкоштовному форматі, наприклад, PNG або TIFF, готовий для імпорту в програмне забезпечення OCR вибору (Aspose-OCR, Tesseract і т.д.).
Передумови
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- Aspose.Imaging для .NET від NuGet
- Сканований документ або зображення (JPEG, PNG, TIFF і т.д.)
PM> Install-Package Aspose.Imaging
Крок за кроком реалізація
Крок 1: Завантажити сканований зображення
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Крок 2: Перехід зображень на будь-який двигун OCR
- Використовуйте свій улюблений інструмент OCR, щоб розпізнати текст з викритого зображення.
- Приклад: імпорт
scan_for_ocr_deskewed.png
до вашого OCR трубопроводу або програмного забезпечення (Aspose.OCR, Tesseract, ABBYY і т.д.).
Крок 3: Огляд і відновлення
- Перевірте результати ОКР. Якщо точність низька, налаштуйте розташування та/або якість сканування.
- Зверніть увагу на обробку пакетів для всіх нових сканів, щоб зберегти ефективний робочий потік цифровизації.
Використання випадків та додатків
- Цифровувати архіви, записи, контракти або форми для пошукового тексту
- Підготовка бізнес-документів для дотримання та аудиту
- Підвищення точності в будь-якому OCR або документальному автоматизаційному трубопроводі
Спільні виклики та рішення
Викриті зображення все ще викликають помилки OCR: Спробуйте різні кольори фону, попереднє фільтрування для шуму або сканування більш високої роздільної здатності.
Вихідні файли занадто великі: Використовуйте TIFF з компресією або PNG, якщо потрібна прозорість.
Мікс форматів зображення: Нормалізуйте всі сканування до безкоштовного формату перед OCR.
Найкращі практики
- Використовуйте безкоштовні формати зображення для OCR
- Зберегти оригінальні та оброблені зображення для посилання
- Документуйте свій робочий простір та цифровизацію для команди
FAQ
**Q: Чи можу я об’єднати всі зображення в папці?**Відповідь: Так — вкладіть цей код в коло над усіма файлами, як показано в попередніх прикладах.
**Q: Який колір фону найкраще працює для OCR?**Відповідь: Білий є найбезпечнішим для тексту; використовуйте прозорі для графіки, або відповідає вашому документу.
** Q: Чи добре компресувати файли після відключення?**Відповідь: Використовуйте компресію без втрат, щоб уникнути артефактів, які знижують точність ОКР.
Заключення
Розробка з Aspose.Imaging для .NET є обов’язковим для надійного OCR, цифровизації та бізнес-автоматизму. Зберігайте свій трубопровід чистим, швидким і точним! Завантажити .NET API Reference .