Как преобразовать отсканированные PDF-файлы в текстовые документы с возможностью поиска в .NET

Как преобразовать отсканированные PDF-файлы в текстовые документы с возможностью поиска в .NET

Сканированные PDF-файлы обычно являются не редактируемыми, основанными на изображениях файлами, что затрудняет извлечение текста из них. Однако с помощью Aspose.OCR для .NET вы можете быстро преобразовать эти сканированные PDF-файлы в редактируемые, полнотекстовые документы, что значительно упрощает извлечение данных и управление документами.

Почему стоит конвертировать сканированные PDF-файлы в полнотекстовые документы?

  1. Улучшенная доступность:
    • Сканированные PDF-файлы можно преобразовать в текст, который можно искать и редактировать, что обеспечивает лучшую доступность к содержимому.
  2. Организация данных:
    • После преобразования текст можно организовать, изменять и повторно использовать в различных форматах, таких как Word, Excel или обычный текст.
  3. Сохранение содержания:
    • Aspose.OCR обеспечивает сохранение оригинальных изображений и макета во время извлечения текста, предоставляя вам как содержание, так и контекст.

Предварительные требования: Подготовка к конвертации сканированных PDF-файлов

Перед тем как начать процесс извлечения текста из сканированных PDF-файлов, убедитесь в следующем:

  1. Установите Aspose.OCR для .NET:
    • Установите необходимую библиотеку с помощью NuGet, используя команду:
      dotnet add package Aspose.OCR
  2. Настройка лицензии:
    • Получите и настройте лицензии с учетом счетчика, используя метод SetMeteredKey(), чтобы разблокировать все функции.
  3. Подготовьте ваши сканированные PDF-файлы:
    • Убедитесь, что ваши сканированные PDF-файлы имеют хорошее качество (300 DPI или выше) для достижения наилучших результатов OCR.

Пошаговое руководство по конвертации сканированных PDF-файлов в текст

Шаг 1: Настройте вашу лицензию

Начните с настройки вашей лицензии Aspose.OCR, чтобы обеспечить полный доступ к функциям.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<ваш публичный ключ>", "<ваш приватный ключ>");
Console.WriteLine("Лицензия с учетом счетчика успешно настроена.");

Шаг 2: Загрузите сканированный PDF-файл в объект ввода OCR

Загрузите файл сканированного PDF в движок OCR для распознавания текста.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Укажите страницы для обработки (первые 3 страницы)
Console.WriteLine("Сканированный PDF успешно загружен.");

Шаг 3: Настройте движок OCR для распознавания

Настройте движок OCR для оптимизации извлечения текста из сканированного PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Укажите язык OCR (используйте латиницу для английского)
Console.WriteLine("Настройки OCR настроены.");

Шаг 4: Извлеките и сохраните распознанный текст

Обработайте сканированный PDF, чтобы извлечь текст и сохранить его в файл.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Извлечение текста прошло успешно.");

// Сохраните распознанный текст в файл
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Распознанный текст сохранен в recognized_text.txt.");

Шаг 5: Проверьте распознанный текст

После извлечения проверьте точность распознавания текста, проверив выходной файл или отобразив его на консоли.


Общие проблемы и их решения

1. Плохая точность OCR

  • Решение: Убедитесь, что качество сканированного PDF-файла высокое (300 DPI или более) для повышения точности распознавания.

2. Неправильное распознавание языка

  • Решение: Явно укажите настройку языка в RecognitionSettings для достижения лучших результатов, особенно для нелатинских символов.

3. Медленная производительность для больших файлов

  • Решение: Обрабатывайте большие PDF-файлы частями или оптимизируйте использование памяти для ускорения процесса OCR.
 Русский