Як конвертувати відскановані PDF-файли в текстові документи, що підлягають пошуку, у .NET

Як конвертувати відскановані PDF-файли в текстові документи, що підлягають пошуку, у .NET

Скановані PDF-файли часто важко обробляти, оскільки вони по суті є лише зображеннями тексту. Перетворення цих зображень на пошукові, редаговані текстові документи відкриває світ можливостей для управління документами та доступності контенту. За допомогою Aspose.OCR для .NET ви можете перетворити скановані PDF-файли на повністю пошукові документи, зберігаючи оригінальні зображення.

Чому варто перетворити скановані PDF-файли на пошукові текстові документи?

  1. Доступність:
    • Зробіть сканований контент пошуковим, що полегшує пошук інформації без необхідності вручну читати документ.
  2. Редагування контенту:
    • Після перетворення в текст контент можна редагувати, оновлювати або використовувати в інших форматах.
  3. Ефективність:
    • Заощаджуйте час, автоматизуючи процес перетворення сканованих PDF-файлів на повністю доступні текстові документи.

Передумови: Налаштування для витягування тексту зі сканованих PDF-файлів

Перед витягуванням тексту зі сканованих PDF-файлів виконайте ці кроки, щоб все було налаштовано:

  1. Встановіть Aspose.OCR для .NET:
    • Додайте Aspose.OCR до вашого проєкту за допомогою NuGet:
      dotnet add package Aspose.OCR
  2. Отримайте вашу ліцензію:
    • Налаштуйте свою ліцензію з обліком, використовуючи SetMeteredKey(), щоб розблокувати всі функції Aspose.OCR.
  3. Підготуйте свій сканований PDF:
    • Переконайтеся, що скановані PDF-файли мають хорошу якість для покращення точності розпізнавання.

Покрокова інструкція: Перетворення сканованих PDF-файлів на пошуковий текст

Крок 1: Налаштуйте свою ліцензію

Почніть з налаштування ліцензії Aspose.OCR, щоб розблокувати всі функції.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<ваш публічний ключ>", "<ваш приватний ключ>");
Console.WriteLine("Ліцензія налаштована успішно.");

Крок 2: Завантажте сканований PDF у об’єкт OCR Input

Наступним кроком завантажте сканований PDF у об’єкт OcrInput, щоб розпочати процес OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Обробити перші 3 сторінки
Console.WriteLine("Сканований PDF успішно завантажено.");

Крок 3: Налаштуйте OCR-двигун для розпізнавання

Налаштуйте OCR-двигун і налаштуйте будь-які параметри розпізнавання, такі як мова та точність.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Встановіть мову OCR
Console.WriteLine("OCR-двигун налаштовано.");

Крок 4: Витягніть та виведіть розпізнаний текст

Тепер витягніть текст зі сканованого PDF за допомогою OCR-двигуна.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Текст успішно витягнуто зі сканованого PDF.");

// Виведіть розпізнаний текст
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Збережіть результат у текстовий файл
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Текст збережено у recognized_text.txt.");

Крок 5: Перевірте пошуковий PDF

Переконайтеся, що витягнутий текст є пошуковим і редагованим, протестувавши вихід у переглядачі або редакторі PDF.

Поширені проблеми та їх вирішення

1. Низька точність OCR

  • Рішення: Переконайтеся, що сканований PDF має високу якість (принаймні 300 DPI), щоб покращити результати розпізнавання.

2. Непідтримувані шрифти

  • Рішення: Переконайтеся, що в налаштуваннях OCR встановлена правильна мова для точного розпізнавання тексту, особливо для нелатинських символів.

3. Повільна продуктивність для великих PDF

  • Рішення: Для великих PDF-файлів обробляйте документ меншими частинами або сторінками, щоб зменшити використання пам’яті та прискорити процес.
 Українська