Как извлечь текст из сканированных PDF-файлов в .NET с помощью Aspose.OCR
Скенированные PDF-файлы часто становятся сложной работой, потому что они в основном просто изображения текста. Конвертирование этих изображений в поисковые, редактируемые текстовые документы открывает мир возможностей для управления документами и доступности контента. Aspose.OCR для .NET, вы можете конвертировать скенированные PDF-файлы в полностью поисковые документы при сохранении оригинальных изображений.
Почему OCR (Optical Character Recognition) имеет значение для сканированных PDF-файлов
Экстракция данных:- OCR позволяет конвертировать сканированный текст в машинночитаемые данные, которые можно редактировать и индексировать.
поисковая способность:- Конвертируя сканированные PDF-файлы в поисковые документы, вы можете быстро найти соответствующую информацию без ручного поиска через страницы.
Улучшенная производительность:- Сохраните время, автоматизируя конверсию сканированных документов в редактируемые форматы, такие как Word или Excel.
Преимущества: Настройки для сканированного PDF-экстракции текста
Перед тем, как начать экстрактировать текст из сканированных PDF-файлов, убедитесь, что следующие шаги завершены:
Настройка Aspose.OCR для .NET:- Добавьте Aspose.OCR к вашему проекту с помощью NuGet:
dotnet add package Aspose.OCR
Получить лицензионную лицензию:- Установите свою мерную лицензию, чтобы отключить все функции библиотеки Aspose.OCR с помощью
SetMeteredKey()
.Подготовьте свои сканированные PDF-файлы:- Убедитесь, что ваши сканированные PDF-файлы имеют высокое качество. лучшие результаты качества в более точных OCR.
Step-by-Step Guide: Экстракция текста из сканированных PDF-файлов
Шаг 1: Установите необходимую библиотеку
Начните с установки Aspose.OCR для .NET в ваш проект. Вы можете сделать это непосредственно из NuGet.
dotnet add package Aspose.OCR
Шаг 2: Установите ключи лицензии
Перед тем, как поступить, настройте лицензию на Aspose.OCR, чтобы отключить все функции.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Шаг 3: Загрузите сканированный PDF в объект ввода OCR
Вам понадобится загрузить сканированный PDF в OcrInput
Объект. Aspose.OCR поддерживает сканирование нескольких страниц PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Шаг 4: Обработка сканированного PDF с помощью двигателя OCR
При загрузке PDF передавайте его на двигатель Aspose OCR для распознавания.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Шаг 5: Выйдите признанный текст или сохраните его
Как только двигатель OCR обрабатывает PDF, вы можете либо вывести признанный текст непосредственно или сохранить его в файл.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Шаг 6: Тест и оптимизация результатов ОКР
После экстракции текста тестируйте исход для точности. при необходимости можно перетаскивать настройки ОКР для улучшения результатов для различных расчётов документов.
Общие проблемы и фиксации
Плохая точность ОКР
- Решение: Убедитесь, что качество сканированного PDF высокое. используйте сканы высокого разрешения для улучшения точности распознавания.
2 Неподдерживаемые шрифты
- Решение: обеспечить правильное расположение языка в опциях ОКР для улучшения распознавания нелатинских персонажей.
3 – медленная производительность
- Решение: Разбивайте PDF-файл на более мелкие фрагменты или страницы для более быстрой обработки, особенно для больших документов.