Як витягти текст з відсканованих PDF-файлів у .NET за допомогою Aspose.OCR

Як витягти текст з відсканованих PDF-файлів у .NET за допомогою Aspose.OCR

Скановані PDF-файли часто важко обробляти, оскільки вони, по суті, є лише зображеннями тексту. Перетворення цих зображень у документами з можливістю пошуку та редагування відкриває світ можливостей для управління документами та доступності контенту. За допомогою Aspose.OCR для .NET ви можете перетворювати скановані PDF-файли в повністю доступні для пошуку документи, зберігаючи оригінальні зображення.

Чому OCR (Оптичне розпізнавання символів) важливий для сканованих PDF-файлів

  1. Витяг даних:
    • OCR дозволяє перетворювати сканований текст у дані, придатні для машинного читання, які можна редагувати та індексувати.
  2. Можливість пошуку:
    • Перетворивши скановані PDF-файли в документи з можливістю пошуку, ви можете швидко знаходити відповідну інформацію без ручного перегляду сторінок.
  3. Підвищення продуктивності:
    • Заощаджуйте час, автоматизуючи перетворення сканованих документів у редаговані формати, такі як Word або Excel.

Попередні вимоги: Налаштування для витягування тексту зі сканованих PDF-файлів

Перед тим, як почати витягувати текст зі своїх сканованих PDF-файлів, переконайтеся, що виконані наступні кроки:

  1. Встановіть Aspose.OCR для .NET:
    • Додайте Aspose.OCR до свого проєкту за допомогою NuGet:
      dotnet add package Aspose.OCR
  2. Отримайте ліцензію з обліком:
    • Налаштуйте свою ліцензію з обліком, щоб розблокувати всі функції бібліотеки Aspose.OCR, використовуючи SetMeteredKey().
  3. Підготуйте свої скановані PDF-файли:
    • Переконайтеся, що ваші скановані PDF-файли високої якості. Краща якість призводить до більш точної OCR.

Покрокова інструкція: Витягування тексту зі сканованих PDF-файлів

Крок 1: Встановіть необхідну бібліотеку

Почніть з установки Aspose.OCR для .NET у ваш проєкт. Ви можете зробити це безпосередньо з NuGet.

dotnet add package Aspose.OCR

Крок 2: Налаштуйте свої ліцензійні ключі

Перед продовженням налаштуйте свою ліцензію для Aspose.OCR, щоб розблокувати всі функції.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Ліцензія налаштована успішно.");

Крок 3: Завантажте сканований PDF у об’єкт OCR Input

Вам потрібно завантажити сканований PDF у об’єкт OcrInput. Aspose.OCR підтримує сканування кількох сторінок PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Обробити перші 3 сторінки PDF
Console.WriteLine("Сканований PDF успішно завантажено.");

Крок 4: Обробіть сканований PDF за допомогою OCR-движка

Завантаживши PDF, передайте його в движок Aspose OCR для розпізнавання.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Встановіть мову OCR (наприклад, латиниця для англійської)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Текст витягнуто з PDF.");

Крок 5: Виведіть розпізнаний текст або збережіть його

Після обробки PDF движком OCR ви можете або вивести розпізнаний текст безпосередньо, або зберегти його у файл.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Розпізнаний текст: {recognizedText}");

// Збережіть результат у текстовий файл
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Розпізнаний текст збережено у output.txt.");

Крок 6: Тестуйте та оптимізуйте результати OCR

Після витягування тексту протестуйте результат на точність. Якщо потрібно, ви можете налаштувати параметри OCR для покращення результатів для різних макетів документів.


Загальні проблеми та їх рішення

1. Погана точність OCR

  • Рішення: Переконайтеся, що якість сканованого PDF висока. Використовуйте сканування з високою роздільною здатністю для покращення точності розпізнавання.

2. Непідтримувані шрифти

  • Рішення: Надайте правильні налаштування мови в параметрах OCR для покращення розпізнавання для нелатинських символів.

3. Повільна продуктивність

  • Рішення: Розділіть PDF на менші частини або сторінки для швидшої обробки, особливо для великих документів.
 Українська