Как превратить сканированные PDF-файлы в поисковые текстовые документы в .NET

Сканированные PDF-файлы, как правило, не редактируются, основанные на изображении файлы, что затрудняет извлечение текста из них. Тем не менее, с Aspose.OCR для .NET, вы можете быстро превратить эти сканированные PDF-файлы в редактируемые, поисковые текстовые документы, которые делают восстановление данных и управление документами намного проще.

Почему нужно конвертировать сканированные PDF-файлы в поисковый текст?

Улучшенная доступность:- Сканированные PDF-файлы могут быть конвертированы в текст, который можно искать и редактировать, что позволяет улучшить доступность контента.
Организация данных:- После конвертации текст может быть организован, манипулирован и повторно использован в различных форматах, таких как Word, Excel или плоский текст.
Содержание контента:- Aspose.OCR гарантирует, что оригинальные изображения и расположение сохраняются во время извлечения текста, давая вам как контент, так и контекст.

Преимущества: Подготовка к сканированной конверсии PDF

Перед тем, как начать процесс извлечения текста из сканированных PDF-файлов, убедитесь в следующем:

Настройка Aspose.OCR для .NET:- Настроить необходимую библиотеку с помощью NuGet с командой: dotnet add package Aspose.OCR
Лицензионная конфигурация:- Получить и конфигурировать измеренную лицензию с помощью SetMeteredKey() Метод разблокирования всех функций.
Подготовьте свои сканированные PDF-файлы:- Убедитесь, что ваши сканированные PDF-файлы находятся в хорошем качестве (300 ДПИ или выше) для лучших результатов OCR.

Шаг за шагом Руководство для конвертации сканированных PDF-файлов в текст

Шаг 1: Установите лицензию

Начните с конфигурирования вашей лицензии Aspose.OCR для обеспечения полного доступа к функциям.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Шаг 2: Загрузите сканированный PDF в объект ввода OCR

Загрузите сканированный PDF-файл в OCR-мотор для распознавания текста.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Шаг 3: Настройка двигателя OCR для распознавания

Настройка двигателя OCR для оптимизации текстового извлечения из сканированного PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Шаг 4: Извлечение и сохранение признанного текста

Обработка сканированного PDF, чтобы вывести текст и вывести его в файл.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Шаг 5: Проверка признанного текста

После экстракции проверьте точность текстового распознавания, проверяя выходящий файл или показывая его на консоле.

Общие проблемы и фиксации

Плохая точность ОКР

Решение: Убедитесь, что качество сканированного PDF высокое (300 дПИ или более) для лучшей точности распознавания.

Неправильное признание языка

Решение: четко указать языковые настройки в RecognitionSettings для лучших результатов, особенно для нелатинских персонажей.

Медленная производительность для больших файлов

Решение: Обработка больших PDF-файлов в кусочках или оптимизация использования памяти для ускорения процесса ОКР.