Як конвертувати відскановані PDF-файли в текстові документи з можливістю пошуку в .NET

Як конвертувати відскановані PDF-файли в текстові документи з можливістю пошуку в .NET

Скановані PDF-файли зазвичай є не редагованими, заснованими на зображеннях файлами, що ускладнює витягування тексту з них. Однак за допомогою Aspose.OCR для .NET ви можете швидко перетворити ці скановані PDF-файли на редаговані, пошукові текстові документи, що значно полегшує отримання даних і управління документами.

Чому варто конвертувати скановані PDF у пошуковий текст?

  1. Покращена доступність:
    • Скановані PDF можуть бути перетворені у текст, який є пошуковим і редагованим, що дозволяє покращити доступність до контенту.
  2. Організація даних:
    • Після конвертації текст може бути організований, змінений і повторно використаний у різних форматах, таких як Word, Excel або простий текст.
  3. Збереження контенту:
    • Aspose.OCR гарантує, що оригінальні зображення та макет зберігаються під час витягування тексту, надаючи вам як контент, так і контекст.

Попередні вимоги: Підготовка до конвертації сканованих PDF

Перед початком процесу витягування тексту зі сканованих PDF переконайтеся в наступному:

  1. Встановіть Aspose.OCR для .NET:
    • Встановіть необхідну бібліотеку за допомогою NuGet за командою:
      dotnet add package Aspose.OCR
  2. Конфігурація ліцензії:
    • Отримайте та налаштуйте ліцензію з обмеженнями, використовуючи метод SetMeteredKey(), щоб розблокувати всі функції.
  3. Підготуйте ваші скановані PDF:
    • Переконайтеся, що ваші скановані PDF мають хорошу якість (300 DPI або вище) для найкращих результатів OCR.

Покрокова інструкція з конвертації сканованих PDF в текст

Крок 1: Налаштуйте вашу ліцензію

Почніть з налаштування вашої ліцензії Aspose.OCR, щоб забезпечити повний доступ до функцій.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Ліцензія з обмеженнями успішно налаштована.");

Крок 2: Завантажте сканований PDF в об’єкт введення OCR

Завантажте файл сканованого PDF в OCR-движок для розпізнавання тексту.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Вкажіть сторінки для обробки (перші 3 сторінки)
Console.WriteLine("Сканований PDF успішно завантажено.");

Крок 3: Налаштуйте OCR-движок для розпізнавання

Налаштуйте OCR-движок для оптимізації витягування тексту зі сканованого PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Вкажіть мову OCR (використовуйте латиницю для англійської)
Console.WriteLine("Налаштування OCR сконфігуровані.");

Крок 4: Витягніть і збережіть розпізнаний текст

Обробіть сканований PDF, щоб витягти текст і вивести його у файл.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Витягнення тексту успішно завершено.");

// Виведіть розпізнаний текст у файл
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Розпізнаний текст збережено у recognized_text.txt.");

Крок 5: Перевірте розпізнаний текст

Після витягнення перевірте точність розпізнавання тексту, перевіривши вихідний файл або відобразивши його на консолі.


Загальні проблеми та їх вирішення

1. Погана точність OCR

  • Рішення: Переконайтеся, що якість сканованого PDF висока (300 DPI або більше) для кращої точності розпізнавання.

2. Неправильне розпізнавання мови

  • Рішення: Явно вкажіть налаштування мови в RecognitionSettings для кращих результатів, особливо для нелатинських символів.

3. Повільна продуктивність для великих файлів

  • Рішення: Обробляйте великі PDF-файли частинами або оптимізуйте використання пам’яті, щоб прискорити процес OCR.
 Українська