Як збирати скановані документи для OCR в .NET

Як збирати скановані документи для OCR в .NET

При підготовці сканованих документів для Optical Character Recognition (OCR), необхідно збирати зображення, щоб зосередитися на важких областях тексту. Кроплення невід’ємних частин документа забезпечує, що програмне забезпечення OCR може екстрактувати текст більш точним і ефективним способом. Aspose.Imaging для .NET забезпечує необхідні інструменти для збирання сканованих документів і підготовки їх до обробки OCR.

Переваги розшифрування сканованих документів для OCR

  • Підвищена точність:- ОКР зосереджує зусилля на відповідних текстових розділах, уникаючи шуму або нерелевантного контенту.

  • Зменшення терміну обробки:- Вирощувати зображення, щоб мінімізувати ділянку, яку потрібно обробляти, прискорюючи процес ОКР.

  • Кращий текст екстракції:- Переконайтеся, що текст належним чином збалансований і добре закріплений для двигунів OCR.

Наступна статтяКто чего не ест: Aspose.Imaging

  • Завантажити The Створення .NET SDK у вашій системі.
  • Додайте Aspose.Imaging до вашого проекту: dotnet add package Aspose.Imaging
  • Отримати розмірну ліцензію і налаштувати її за допомогою SetMeteredKey().

Крок за кроком Посібник для вирощування сканованих документів для OCR

Крок 1: Налаштуйте розмірну ліцензію

Налаштуйте Aspose.Imaging для не обмеженого доступу до функцій видобутку.

using Aspose.Imaging;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Крок 2: Завантажити зображення сканованого документа

Завантажити сканований документальний файл, який потрібно збирати для підготовки OCR.

string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
    Console.WriteLine($"Loaded scanned document: {inputPath}");
}

Крок 3: Визначте місце урожаю

Визначте прямокутну ділянку навколо тексту, яку потрібно витягти.

var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");

Крок 4: Використовуйте операцію з урожаю

Використовуйте Crop() Метод витягування необхідного тексту з зображення.

image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");

Крок 5: Зберегти зображення

Зберегти зображення для обробки OCR.

image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");

Використання та використання

  • Системи обробки документів:- Впровадження копіювання в автоматизованих системах сканування документів для підготовки зображень для OCR.

  • Інтеграція робочого потоку OCR:- Документи урожаю перед тим, як передати їх на двигуни OCR для більш швидкого і точного видобутку тексту.

  • Вихідна валідація:- Відкрийте зібраний зображення, щоб переконатися, що текст чітко видно і правильно закріплено.

Реальні світові програми

  • Правова та медична документація сканування:- Вирощування сканованих контрактів або медичних записів, щоб зосередити увагу на важливому тексті для обробки ОКР.

  • Архівні системи:- Підготуйте історичні документи для видобутку тексту та цифровизації.

  • Управління електронною поштою:- Автоматизуйте витяг тексту з сканованих форм або додатків.

Загальні питання та рішення

  • Неправильна зона урожаю:- Забезпечити, що Rectangle Координати поєднують розділ з текстом.

  • Низька якість зображень:- Переконайтеся, що сканований зображення має достатньо високу роздільну здатність для точності OCR.

  • Дозвіл на отримання документів:- Перевірте, що каталоги виходу мають відповідні письмові дозволи.

Заключення

Використовуючи Aspose.Imaging для .NET, ви можете легко збирати скановані документи, щоб зосередити увагу на важливих розділах для обробки ОКР, поліпшення точності та ефективності.Це рішення ідеально підходить для автоматизованих робочих потоків в управлінні документами, правових системах та охорони здоров’я.

 Українська