Как извлечь текст из отсканированных PDF в .NET с использованием Aspose.OCR

Как извлечь текст из отсканированных PDF в .NET с использованием Aspose.OCR

Сканированные PDF-файлы часто сложно обрабатывать, так как они, по сути, являются просто изображениями текста. Преобразование этих изображений в поисковые, редактируемые текстовые документы открывает мир возможностей для управления документами и доступности контента. С помощью Aspose.OCR для .NET вы можете преобразовать сканированные PDF-файлы в полностью поисковые документы, сохраняя оригинальные изображения.

Почему OCR (Оптическое распознавание символов) важно для сканированных PDF

  1. Извлечение данных:
    • OCR позволяет преобразовать сканированный текст в машиночитаемые данные, которые можно редактировать и индексировать.
  2. Поисковая способность:
    • Преобразуя сканированные PDF-файлы в поисковые документы, вы можете быстро находить соответствующую информацию, не просматривая страницы вручную.
  3. Повышение производительности:
    • Экономьте время, автоматизируя преобразование сканированных документов в редактируемые форматы, такие как Word или Excel.

Предварительные условия: Настройка для извлечения текста из сканированных PDF

Перед тем как начать извлечение текста из ваших сканированных PDF-файлов, убедитесь, что выполнены следующие шаги:

  1. Установите Aspose.OCR для .NET:
    • Добавьте Aspose.OCR в ваш проект с помощью NuGet:
      dotnet add package Aspose.OCR
  2. Получите лицензии с учетом использования:
    • Настройте свою лицензию с учетом использования, чтобы разблокировать все функции библиотеки Aspose.OCR с помощью SetMeteredKey().
  3. Подготовьте ваши сканированные PDF-файлы:
    • Убедитесь, что ваши сканированные PDF-файлы высокого качества. Лучше качество приводит к более точному OCR.

Пошаговое руководство: Извлечение текста из сканированных PDF

Шаг 1: Установите необходимую библиотеку

Начните с установки Aspose.OCR для .NET в ваш проект. Вы можете сделать это напрямую из NuGet.

dotnet add package Aspose.OCR

Шаг 2: Настройте ваши лицензионные ключи

Перед тем как продолжить, настройте вашу лицензию для Aspose.OCR, чтобы разблокировать все функции.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<ваш публичный ключ>", "<ваш приватный ключ>");
Console.WriteLine("Лицензия успешно настроена.");

Шаг 3: Загрузите сканированный PDF в объект ввода OCR

Вам нужно загрузить сканированный PDF в объект OcrInput. Aspose.OCR поддерживает сканирование нескольких страниц PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Обработать первые 3 страницы PDF
Console.WriteLine("Сканированный PDF успешно загружен.");

Шаг 4: Обработайте сканированный PDF с помощью движка OCR

После загрузки PDF передайте его в движок Aspose OCR для распознавания.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Установите язык OCR (например, латиница для английского)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Текст извлечен из PDF.");

Шаг 5: Выведите распознанный текст или сохраните его

После обработки PDF движком OCR вы можете либо вывести распознанный текст напрямую, либо сохранить его в файл.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Распознанный текст: {recognizedText}");

// Сохраните результат в текстовый файл
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Распознанный текст сохранен в output.txt.");

Шаг 6: Протестируйте и оптимизируйте результаты OCR

После извлечения текста протестируйте вывод на точность. При необходимости вы можете настроить параметры OCR для улучшения результатов для различных макетов документов.


Общие проблемы и их решения

1. Плохая точность OCR

  • Решение: Убедитесь, что качество сканированного PDF высокое. Используйте сканы высокого разрешения для повышения точности распознавания.

2. Неподдерживаемые шрифты

  • Решение: Укажите правильную языковую настройку в параметрах OCR, чтобы улучшить распознавание для нелатинских символов.

3. Низкая производительность

  • Решение: Разбейте PDF на более мелкие части или страницы для более быстрой обработки, особенно для больших документов.
 Русский