Як конвертувати відскановані PDF-файли в текстові документи, що підлягають пошуку, у .NET
Скановані PDF-файли часто важко обробляти, оскільки вони по суті є лише зображеннями тексту. Перетворення цих зображень на пошукові, редаговані текстові документи відкриває світ можливостей для управління документами та доступності контенту. За допомогою Aspose.OCR для .NET ви можете перетворити скановані PDF-файли на повністю пошукові документи, зберігаючи оригінальні зображення.
Чому варто перетворити скановані PDF-файли на пошукові текстові документи?
- Доступність:
- Зробіть сканований контент пошуковим, що полегшує пошук інформації без необхідності вручну читати документ.
- Редагування контенту:
- Після перетворення в текст контент можна редагувати, оновлювати або використовувати в інших форматах.
- Ефективність:
- Заощаджуйте час, автоматизуючи процес перетворення сканованих PDF-файлів на повністю доступні текстові документи.
Передумови: Налаштування для витягування тексту зі сканованих PDF-файлів
Перед витягуванням тексту зі сканованих PDF-файлів виконайте ці кроки, щоб все було налаштовано:
- Встановіть Aspose.OCR для .NET:
- Додайте Aspose.OCR до вашого проєкту за допомогою NuGet:
dotnet add package Aspose.OCR
- Додайте Aspose.OCR до вашого проєкту за допомогою NuGet:
- Отримайте вашу ліцензію:
- Налаштуйте свою ліцензію з обліком, використовуючи
SetMeteredKey()
, щоб розблокувати всі функції Aspose.OCR.
- Налаштуйте свою ліцензію з обліком, використовуючи
- Підготуйте свій сканований PDF:
- Переконайтеся, що скановані PDF-файли мають хорошу якість для покращення точності розпізнавання.
Покрокова інструкція: Перетворення сканованих PDF-файлів на пошуковий текст
Крок 1: Налаштуйте свою ліцензію
Почніть з налаштування ліцензії Aspose.OCR, щоб розблокувати всі функції.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<ваш публічний ключ>", "<ваш приватний ключ>");
Console.WriteLine("Ліцензія налаштована успішно.");
Крок 2: Завантажте сканований PDF у об’єкт OCR Input
Наступним кроком завантажте сканований PDF у об’єкт OcrInput, щоб розпочати процес OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Обробити перші 3 сторінки
Console.WriteLine("Сканований PDF успішно завантажено.");
Крок 3: Налаштуйте OCR-двигун для розпізнавання
Налаштуйте OCR-двигун і налаштуйте будь-які параметри розпізнавання, такі як мова та точність.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Встановіть мову OCR
Console.WriteLine("OCR-двигун налаштовано.");
Крок 4: Витягніть та виведіть розпізнаний текст
Тепер витягніть текст зі сканованого PDF за допомогою OCR-двигуна.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Текст успішно витягнуто зі сканованого PDF.");
// Виведіть розпізнаний текст
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Збережіть результат у текстовий файл
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Текст збережено у recognized_text.txt.");
Крок 5: Перевірте пошуковий PDF
Переконайтеся, що витягнутий текст є пошуковим і редагованим, протестувавши вихід у переглядачі або редакторі PDF.
Поширені проблеми та їх вирішення
1. Низька точність OCR
- Рішення: Переконайтеся, що сканований PDF має високу якість (принаймні 300 DPI), щоб покращити результати розпізнавання.
2. Непідтримувані шрифти
- Рішення: Переконайтеся, що в налаштуваннях OCR встановлена правильна мова для точного розпізнавання тексту, особливо для нелатинських символів.
3. Повільна продуктивність для великих PDF
- Рішення: Для великих PDF-файлів обробляйте документ меншими частинами або сторінками, щоб зменшити використання пам’яті та прискорити процес.