Как конвертировать сканированные PDF-файлы в поисковые текстовые документы в .NET

Скенированные PDF-файлы часто становятся сложной работой, потому что они в основном просто изображения текста. Конвертирование этих изображений в поисковые, редактируемые текстовые документы открывает мир возможностей для управления документами и доступности контента. Aspose.OCR для .NET, вы можете конвертировать скенированные PDF-файлы в полностью поисковые документы при сохранении оригинальных изображений.

Почему переводить сканированные PDF-файлы в поисковые текстовые документы?

Доступность:- Сделайте скенированный контент поисковым, делая его легко найти информацию без ручного чтения через документ.
Редактирование контента:- После конвертации в текст, контент может быть редактирован, обновлен или повторно использован в других форматах.
Эффективность:- Сохраните время, автоматизируя процесс конвертации сканированных PDF-файлов в полностью доступные текстовые документы.

Преимущества: Настройки для сканированного PDF-экстракции текста

Прежде чем извлечь текст из сканированных PDF-файлов, следуйте следующим шагам, чтобы убедиться, что все установлено:

Настройка Aspose.OCR для .NET:- Добавьте Aspose.OCR к вашему проекту с помощью NuGet: dotnet add package Aspose.OCR
Получите свою лицензию:- Установите свою мерную лицензию с использованием SetMeteredKey() Отключить полную функциональность Aspose.OCR.
Подготовьте свой сканированный PDF:- Убедитесь, что сканированные PDF-файлы хорошего качества для лучшей точности распознавания.

Step-by-Step Guide: Конвертирование сканированных PDF-файлов в поисковый текст

Шаг 1: Установите лицензию

Начните с конфигурирования лицензии Aspose.OCR для отключения всех функций.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Шаг 2: Загрузите сканированный PDF в объект ввода OCR

Затем загрузите сканированный PDF в объект OcrInput, чтобы начать процесс OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Шаг 3: Настройка двигателя OCR для распознавания

Настроить двигатель OCR и настроить любые настройки распознавания, такие как язык и точность.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Шаг 4: Экстракт и вывод признанного текста

Теперь вытягивайте текст из сканированного PDF с помощью двигателя OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Шаг 5: Проверьте поисковый PDF

Убедитесь, что извлеченный текст можно найти и редактировать, тестируя выход в PDF-видере или редакторе.

Общие проблемы и фиксации

Низкая точность OCR

Решение: Убедитесь, что сканированный PDF имеет высокое качество (по крайней мере 300 ДПИ), чтобы улучшить результаты распознавания.

2 Неподдерживаемые шрифты

Решение: Убедитесь, что правильный язык установлен в настройках ОКР для точного распознавания текста, особенно для нелатинских символов.

Медленная производительность для больших PDF

Решение: Для больших PDF-файлов обрабатывайте документ в меньших частях или страницах, чтобы уменьшить использование памяти и ускорить процесс.