Як конвертувати відскановані PDF-файли в текстові документи з можливістю пошуку в .NET
Скановані PDF-файли зазвичай є не редагованими, заснованими на зображеннях файлами, що ускладнює витягування тексту з них. Однак за допомогою Aspose.OCR для .NET ви можете швидко перетворити ці скановані PDF-файли на редаговані, пошукові текстові документи, що значно полегшує отримання даних і управління документами.
Чому варто конвертувати скановані PDF у пошуковий текст?
- Покращена доступність:
- Скановані PDF можуть бути перетворені у текст, який є пошуковим і редагованим, що дозволяє покращити доступність до контенту.
- Організація даних:
- Після конвертації текст може бути організований, змінений і повторно використаний у різних форматах, таких як Word, Excel або простий текст.
- Збереження контенту:
- Aspose.OCR гарантує, що оригінальні зображення та макет зберігаються під час витягування тексту, надаючи вам як контент, так і контекст.
Попередні вимоги: Підготовка до конвертації сканованих PDF
Перед початком процесу витягування тексту зі сканованих PDF переконайтеся в наступному:
- Встановіть Aspose.OCR для .NET:
- Встановіть необхідну бібліотеку за допомогою NuGet за командою:
dotnet add package Aspose.OCR
- Встановіть необхідну бібліотеку за допомогою NuGet за командою:
- Конфігурація ліцензії:
- Отримайте та налаштуйте ліцензію з обмеженнями, використовуючи метод
SetMeteredKey()
, щоб розблокувати всі функції.
- Отримайте та налаштуйте ліцензію з обмеженнями, використовуючи метод
- Підготуйте ваші скановані PDF:
- Переконайтеся, що ваші скановані PDF мають хорошу якість (300 DPI або вище) для найкращих результатів OCR.
Покрокова інструкція з конвертації сканованих PDF в текст
Крок 1: Налаштуйте вашу ліцензію
Почніть з налаштування вашої ліцензії Aspose.OCR, щоб забезпечити повний доступ до функцій.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Ліцензія з обмеженнями успішно налаштована.");
Крок 2: Завантажте сканований PDF в об’єкт введення OCR
Завантажте файл сканованого PDF в OCR-движок для розпізнавання тексту.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Вкажіть сторінки для обробки (перші 3 сторінки)
Console.WriteLine("Сканований PDF успішно завантажено.");
Крок 3: Налаштуйте OCR-движок для розпізнавання
Налаштуйте OCR-движок для оптимізації витягування тексту зі сканованого PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Вкажіть мову OCR (використовуйте латиницю для англійської)
Console.WriteLine("Налаштування OCR сконфігуровані.");
Крок 4: Витягніть і збережіть розпізнаний текст
Обробіть сканований PDF, щоб витягти текст і вивести його у файл.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Витягнення тексту успішно завершено.");
// Виведіть розпізнаний текст у файл
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Розпізнаний текст збережено у recognized_text.txt.");
Крок 5: Перевірте розпізнаний текст
Після витягнення перевірте точність розпізнавання тексту, перевіривши вихідний файл або відобразивши його на консолі.
Загальні проблеми та їх вирішення
1. Погана точність OCR
- Рішення: Переконайтеся, що якість сканованого PDF висока (300 DPI або більше) для кращої точності розпізнавання.
2. Неправильне розпізнавання мови
- Рішення: Явно вкажіть налаштування мови в RecognitionSettings для кращих результатів, особливо для нелатинських символів.
3. Повільна продуктивність для великих файлів
- Рішення: Обробляйте великі PDF-файли частинами або оптимізуйте використання пам’яті, щоб прискорити процес OCR.