Как превратить сканированные PDF-файлы в поисковые текстовые документы в .NET
Сканированные PDF-файлы, как правило, не редактируются, основанные на изображении файлы, что затрудняет извлечение текста из них. Тем не менее, с Aspose.OCR для .NET, вы можете быстро превратить эти сканированные PDF-файлы в редактируемые, поисковые текстовые документы, которые делают восстановление данных и управление документами намного проще.
Почему нужно конвертировать сканированные PDF-файлы в поисковый текст?
Улучшенная доступность:- Сканированные PDF-файлы могут быть конвертированы в текст, который можно искать и редактировать, что позволяет улучшить доступность контента.
Организация данных:- После конвертации текст может быть организован, манипулирован и повторно использован в различных форматах, таких как Word, Excel или плоский текст.
Содержание контента:- Aspose.OCR гарантирует, что оригинальные изображения и расположение сохраняются во время извлечения текста, давая вам как контент, так и контекст.
Преимущества: Подготовка к сканированной конверсии PDF
Перед тем, как начать процесс извлечения текста из сканированных PDF-файлов, убедитесь в следующем:
Настройка Aspose.OCR для .NET:- Настроить необходимую библиотеку с помощью NuGet с командой:
dotnet add package Aspose.OCR
Лицензионная конфигурация:- Получить и конфигурировать измеренную лицензию с помощью
SetMeteredKey()
Метод разблокирования всех функций.Подготовьте свои сканированные PDF-файлы:- Убедитесь, что ваши сканированные PDF-файлы находятся в хорошем качестве (300 ДПИ или выше) для лучших результатов OCR.
Шаг за шагом Руководство для конвертации сканированных PDF-файлов в текст
Шаг 1: Установите лицензию
Начните с конфигурирования вашей лицензии Aspose.OCR для обеспечения полного доступа к функциям.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Шаг 2: Загрузите сканированный PDF в объект ввода OCR
Загрузите сканированный PDF-файл в OCR-мотор для распознавания текста.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Шаг 3: Настройка двигателя OCR для распознавания
Настройка двигателя OCR для оптимизации текстового извлечения из сканированного PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Шаг 4: Извлечение и сохранение признанного текста
Обработка сканированного PDF, чтобы вывести текст и вывести его в файл.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Шаг 5: Проверка признанного текста
После экстракции проверьте точность текстового распознавания, проверяя выходящий файл или показывая его на консоле.
Общие проблемы и фиксации
Плохая точность ОКР
- Решение: Убедитесь, что качество сканированного PDF высокое (300 дПИ или более) для лучшей точности распознавания.
Неправильное признание языка
- Решение: четко указать языковые настройки в RecognitionSettings для лучших результатов, особенно для нелатинских персонажей.
Медленная производительность для больших файлов
- Решение: Обработка больших PDF-файлов в кусочках или оптимизация использования памяти для ускорения процесса ОКР.