Как преобразовать отсканированные PDF-файлы в текстовые документы с возможностью поиска в .NET
Сканированные PDF-файлы обычно являются не редактируемыми, основанными на изображениях файлами, что затрудняет извлечение текста из них. Однако с помощью Aspose.OCR для .NET вы можете быстро преобразовать эти сканированные PDF-файлы в редактируемые, полнотекстовые документы, что значительно упрощает извлечение данных и управление документами.
Почему стоит конвертировать сканированные PDF-файлы в полнотекстовые документы?
- Улучшенная доступность:
- Сканированные PDF-файлы можно преобразовать в текст, который можно искать и редактировать, что обеспечивает лучшую доступность к содержимому.
- Организация данных:
- После преобразования текст можно организовать, изменять и повторно использовать в различных форматах, таких как Word, Excel или обычный текст.
- Сохранение содержания:
- Aspose.OCR обеспечивает сохранение оригинальных изображений и макета во время извлечения текста, предоставляя вам как содержание, так и контекст.
Предварительные требования: Подготовка к конвертации сканированных PDF-файлов
Перед тем как начать процесс извлечения текста из сканированных PDF-файлов, убедитесь в следующем:
- Установите Aspose.OCR для .NET:
- Установите необходимую библиотеку с помощью NuGet, используя команду:
dotnet add package Aspose.OCR
- Установите необходимую библиотеку с помощью NuGet, используя команду:
- Настройка лицензии:
- Получите и настройте лицензии с учетом счетчика, используя метод
SetMeteredKey()
, чтобы разблокировать все функции.
- Получите и настройте лицензии с учетом счетчика, используя метод
- Подготовьте ваши сканированные PDF-файлы:
- Убедитесь, что ваши сканированные PDF-файлы имеют хорошее качество (300 DPI или выше) для достижения наилучших результатов OCR.
Пошаговое руководство по конвертации сканированных PDF-файлов в текст
Шаг 1: Настройте вашу лицензию
Начните с настройки вашей лицензии Aspose.OCR, чтобы обеспечить полный доступ к функциям.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<ваш публичный ключ>", "<ваш приватный ключ>");
Console.WriteLine("Лицензия с учетом счетчика успешно настроена.");
Шаг 2: Загрузите сканированный PDF-файл в объект ввода OCR
Загрузите файл сканированного PDF в движок OCR для распознавания текста.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Укажите страницы для обработки (первые 3 страницы)
Console.WriteLine("Сканированный PDF успешно загружен.");
Шаг 3: Настройте движок OCR для распознавания
Настройте движок OCR для оптимизации извлечения текста из сканированного PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Укажите язык OCR (используйте латиницу для английского)
Console.WriteLine("Настройки OCR настроены.");
Шаг 4: Извлеките и сохраните распознанный текст
Обработайте сканированный PDF, чтобы извлечь текст и сохранить его в файл.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Извлечение текста прошло успешно.");
// Сохраните распознанный текст в файл
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Распознанный текст сохранен в recognized_text.txt.");
Шаг 5: Проверьте распознанный текст
После извлечения проверьте точность распознавания текста, проверив выходной файл или отобразив его на консоли.
Общие проблемы и их решения
1. Плохая точность OCR
- Решение: Убедитесь, что качество сканированного PDF-файла высокое (300 DPI или более) для повышения точности распознавания.
2. Неправильное распознавание языка
- Решение: Явно укажите настройку языка в RecognitionSettings для достижения лучших результатов, особенно для нелатинских символов.
3. Медленная производительность для больших файлов
- Решение: Обрабатывайте большие PDF-файлы частями или оптимизируйте использование памяти для ускорения процесса OCR.