Як підготувати скановані зображення для OCR з Deskew за допомогою .NET

Як підготувати скановані зображення для OCR з Deskew за допомогою .NET

Точна OCR (оптична розпізнавання персонажів) починається з ідеально узгоджених зображень. Скріплені або обертані скани знижують точність ОCR, тому відхилення є критичним кроком до переробки. Aspose.Imaging для .NET дозволяє стягувати документи / фотографії для кращих результатів в будь-якому зовнішньому інструменті ОКР.

Реальні проблеми світу

Двигуни OCR працюють найкраще на добре збалансованих зображеннях. Крукісні скани викликають відсутні персонажі або помилки в тексті. Ручне розтягування занадто повільне для великих штук.

Огляд рішення

Використовуйте Aspose.Imaging для .NET, щоб автоматично відключити скановані зображення. Зберегти їх у безкоштовному форматі, наприклад, PNG або TIFF, готовий для імпорту в програмне забезпечення OCR вибору (Aspose-OCR, Tesseract і т.д.).

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • Aspose.Imaging для .NET від NuGet
  • Сканований документ або зображення (JPEG, PNG, TIFF і т.д.)
PM> Install-Package Aspose.Imaging

Крок за кроком реалізація

Крок 1: Завантажити сканований зображення

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

Крок 2: Перехід зображень на будь-який двигун OCR

  • Використовуйте свій улюблений інструмент OCR, щоб розпізнати текст з викритого зображення.
  • Приклад: імпорт scan_for_ocr_deskewed.png до вашого OCR трубопроводу або програмного забезпечення (Aspose.OCR, Tesseract, ABBYY і т.д.).

Крок 3: Огляд і відновлення

  • Перевірте результати ОКР. Якщо точність низька, налаштуйте розташування та/або якість сканування.
  • Зверніть увагу на обробку пакетів для всіх нових сканів, щоб зберегти ефективний робочий потік цифровизації.

Використання випадків та додатків

  • Цифровувати архіви, записи, контракти або форми для пошукового тексту
  • Підготовка бізнес-документів для дотримання та аудиту
  • Підвищення точності в будь-якому OCR або документальному автоматизаційному трубопроводі

Спільні виклики та рішення

Викриті зображення все ще викликають помилки OCR: Спробуйте різні кольори фону, попереднє фільтрування для шуму або сканування більш високої роздільної здатності.

Вихідні файли занадто великі: Використовуйте TIFF з компресією або PNG, якщо потрібна прозорість.

Мікс форматів зображення: Нормалізуйте всі сканування до безкоштовного формату перед OCR.

Найкращі практики

  • Використовуйте безкоштовні формати зображення для OCR
  • Зберегти оригінальні та оброблені зображення для посилання
  • Документуйте свій робочий простір та цифровизацію для команди

FAQ

**Q: Чи можу я об’єднати всі зображення в папці?**Відповідь: Так — вкладіть цей код в коло над усіма файлами, як показано в попередніх прикладах.

**Q: Який колір фону найкраще працює для OCR?**Відповідь: Білий є найбезпечнішим для тексту; використовуйте прозорі для графіки, або відповідає вашому документу.

** Q: Чи добре компресувати файли після відключення?**Відповідь: Використовуйте компресію без втрат, щоб уникнути артефактів, які знижують точність ОКР.

Заключення

Розробка з Aspose.Imaging для .NET є обов’язковим для надійного OCR, цифровизації та бізнес-автоматизму. Зберігайте свій трубопровід чистим, швидким і точним! Завантажити .NET API Reference .

 Українська