Как извлечь текст из отсканированных PDF в .NET с использованием Aspose.OCR
Сканированные PDF-файлы часто сложно обрабатывать, так как они, по сути, являются просто изображениями текста. Преобразование этих изображений в поисковые, редактируемые текстовые документы открывает мир возможностей для управления документами и доступности контента. С помощью Aspose.OCR для .NET вы можете преобразовать сканированные PDF-файлы в полностью поисковые документы, сохраняя оригинальные изображения.
Почему OCR (Оптическое распознавание символов) важно для сканированных PDF
- Извлечение данных:
- OCR позволяет преобразовать сканированный текст в машиночитаемые данные, которые можно редактировать и индексировать.
- Поисковая способность:
- Преобразуя сканированные PDF-файлы в поисковые документы, вы можете быстро находить соответствующую информацию, не просматривая страницы вручную.
- Повышение производительности:
- Экономьте время, автоматизируя преобразование сканированных документов в редактируемые форматы, такие как Word или Excel.
Предварительные условия: Настройка для извлечения текста из сканированных PDF
Перед тем как начать извлечение текста из ваших сканированных PDF-файлов, убедитесь, что выполнены следующие шаги:
- Установите Aspose.OCR для .NET:
- Добавьте Aspose.OCR в ваш проект с помощью NuGet:
dotnet add package Aspose.OCR
- Добавьте Aspose.OCR в ваш проект с помощью NuGet:
- Получите лицензии с учетом использования:
- Настройте свою лицензию с учетом использования, чтобы разблокировать все функции библиотеки Aspose.OCR с помощью
SetMeteredKey()
.
- Настройте свою лицензию с учетом использования, чтобы разблокировать все функции библиотеки Aspose.OCR с помощью
- Подготовьте ваши сканированные PDF-файлы:
- Убедитесь, что ваши сканированные PDF-файлы высокого качества. Лучше качество приводит к более точному OCR.
Пошаговое руководство: Извлечение текста из сканированных PDF
Шаг 1: Установите необходимую библиотеку
Начните с установки Aspose.OCR для .NET в ваш проект. Вы можете сделать это напрямую из NuGet.
dotnet add package Aspose.OCR
Шаг 2: Настройте ваши лицензионные ключи
Перед тем как продолжить, настройте вашу лицензию для Aspose.OCR, чтобы разблокировать все функции.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<ваш публичный ключ>", "<ваш приватный ключ>");
Console.WriteLine("Лицензия успешно настроена.");
Шаг 3: Загрузите сканированный PDF в объект ввода OCR
Вам нужно загрузить сканированный PDF в объект OcrInput
. Aspose.OCR поддерживает сканирование нескольких страниц PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Обработать первые 3 страницы PDF
Console.WriteLine("Сканированный PDF успешно загружен.");
Шаг 4: Обработайте сканированный PDF с помощью движка OCR
После загрузки PDF передайте его в движок Aspose OCR для распознавания.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Установите язык OCR (например, латиница для английского)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Текст извлечен из PDF.");
Шаг 5: Выведите распознанный текст или сохраните его
После обработки PDF движком OCR вы можете либо вывести распознанный текст напрямую, либо сохранить его в файл.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Распознанный текст: {recognizedText}");
// Сохраните результат в текстовый файл
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Распознанный текст сохранен в output.txt.");
Шаг 6: Протестируйте и оптимизируйте результаты OCR
После извлечения текста протестируйте вывод на точность. При необходимости вы можете настроить параметры OCR для улучшения результатов для различных макетов документов.
Общие проблемы и их решения
1. Плохая точность OCR
- Решение: Убедитесь, что качество сканированного PDF высокое. Используйте сканы высокого разрешения для повышения точности распознавания.
2. Неподдерживаемые шрифты
- Решение: Укажите правильную языковую настройку в параметрах OCR, чтобы улучшить распознавание для нелатинских символов.
3. Низкая производительность
- Решение: Разбейте PDF на более мелкие части или страницы для более быстрой обработки, особенно для больших документов.