Как извлечь текст из сканированных PDF-файлов в .NET с помощью Aspose.OCR

Как извлечь текст из сканированных PDF-файлов в .NET с помощью Aspose.OCR

Скенированные PDF-файлы часто становятся сложной работой, потому что они в основном просто изображения текста. Конвертирование этих изображений в поисковые, редактируемые текстовые документы открывает мир возможностей для управления документами и доступности контента. Aspose.OCR для .NET, вы можете конвертировать скенированные PDF-файлы в полностью поисковые документы при сохранении оригинальных изображений.

Почему OCR (Optical Character Recognition) имеет значение для сканированных PDF-файлов

  • Экстракция данных:- OCR позволяет конвертировать сканированный текст в машинночитаемые данные, которые можно редактировать и индексировать.

  • поисковая способность:- Конвертируя сканированные PDF-файлы в поисковые документы, вы можете быстро найти соответствующую информацию без ручного поиска через страницы.

  • Улучшенная производительность:- Сохраните время, автоматизируя конверсию сканированных документов в редактируемые форматы, такие как Word или Excel.

Преимущества: Настройки для сканированного PDF-экстракции текста

Перед тем, как начать экстрактировать текст из сканированных PDF-файлов, убедитесь, что следующие шаги завершены:

  • Настройка Aspose.OCR для .NET:- Добавьте Aspose.OCR к вашему проекту с помощью NuGet: dotnet add package Aspose.OCR

  • Получить лицензионную лицензию:- Установите свою мерную лицензию, чтобы отключить все функции библиотеки Aspose.OCR с помощью SetMeteredKey().

  • Подготовьте свои сканированные PDF-файлы:- Убедитесь, что ваши сканированные PDF-файлы имеют высокое качество. лучшие результаты качества в более точных OCR.

Step-by-Step Guide: Экстракция текста из сканированных PDF-файлов

Шаг 1: Установите необходимую библиотеку

Начните с установки Aspose.OCR для .NET в ваш проект. Вы можете сделать это непосредственно из NuGet.

dotnet add package Aspose.OCR

Шаг 2: Установите ключи лицензии

Перед тем, как поступить, настройте лицензию на Aspose.OCR, чтобы отключить все функции.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Шаг 3: Загрузите сканированный PDF в объект ввода OCR

Вам понадобится загрузить сканированный PDF в OcrInput Объект. Aspose.OCR поддерживает сканирование нескольких страниц PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Шаг 4: Обработка сканированного PDF с помощью двигателя OCR

При загрузке PDF передавайте его на двигатель Aspose OCR для распознавания.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Шаг 5: Выйдите признанный текст или сохраните его

Как только двигатель OCR обрабатывает PDF, вы можете либо вывести признанный текст непосредственно или сохранить его в файл.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Шаг 6: Тест и оптимизация результатов ОКР

После экстракции текста тестируйте исход для точности. при необходимости можно перетаскивать настройки ОКР для улучшения результатов для различных расчётов документов.

Общие проблемы и фиксации

Плохая точность ОКР

  • Решение: Убедитесь, что качество сканированного PDF высокое. используйте сканы высокого разрешения для улучшения точности распознавания.

2 Неподдерживаемые шрифты

  • Решение: обеспечить правильное расположение языка в опциях ОКР для улучшения распознавания нелатинских персонажей.

3 – медленная производительность

  • Решение: Разбивайте PDF-файл на более мелкие фрагменты или страницы для более быстрой обработки, особенно для больших документов.
 Русский