Як витягти текст з сканованих PDF-файлів в .NET за допомогою Aspose.OCR

Як витягти текст з сканованих PDF-файлів в .NET за допомогою Aspose.OCR

Перетворення цих зображень в пошукові, редагувальні текстові документи відкриває світ можливостей для управління документами та доступу до контенту. Aspose.OCR для .NET, ви можете перетворити скановані PDF в повністю пошукові документи, зберігаючи оригінальні зображення.

Чому OCR (Optical Character Recognition) має значення для сканованих PDF-файлів

  • Використання даних:- OCR дозволяє конвертувати сканований текст в машинно читані дані, які можна редагувати і індексувати.

  • Пошукова здатність:- Перетворюючи скановані PDF-файли в пошукові документи, ви можете швидко знайти відповідну інформацію без ручного пошуку через сторінки.

  • Підвищена продуктивність:- Зберегти час, автоматизуючи конвертацію сканованих документів в редагувальні формати, такі як Word або Excel.

Вимоги: Налаштування для сканованого PDF-текстового екстракції

Перед тим, як почати екстрактувати текст з сканованих PDF-файлів, переконайтеся, що наступні кроки завершені:

  • Завантажити Aspose.OCR для .NET:- Додайте Aspose.OCR до вашого проекту за допомогою NuGet: dotnet add package Aspose.OCR

  • Отримайте розмірну ліцензію:- Налаштуйте ліцензію, щоб розблокувати всі функції бібліотеки Aspose.OCR за допомогою SetMeteredKey().

  • Підготуйте свої скановані PDF-диски:- Переконайтеся, що ваші скановані PDF-файли мають високу якість. кращі результати якості в більш точній OCR.

Крок за кроком: Екстракція тексту з сканованих PDF-файлів

Крок 1: Завантажити потрібну бібліотеку

Почніть, встановлюючи Aspose.OCR для .NET в свій проект. Ви можете зробити це безпосередньо з NuGet.

dotnet add package Aspose.OCR

Крок 2: Налаштуйте свої ліцензійні ключі

Перед тим, як пройти процедуру, налаштуйте ліцензію на Aspose.OCR, щоб розблокувати всі функції.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Крок 3: Завантажити сканований PDF в об’єкт входу OCR

Вам доведеться завантажити сканований PDF в OcrInput Об’єкт. Aspose.OCR підтримує сканування кількох сторінок PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Крок 4: Процедура сканованого PDF за допомогою двигуна OCR

При завантаженні PDF перейдіть до двигуна Aspose OCR для розпізнавання.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Крок 5: Вийдіть визнаний текст або збережіть його

Після того, як двигун OCR обробляє PDF, ви можете або вивести визнаний текст безпосередньо або зберегти його в файл.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Крок 6: Тест і оптимізація результатів ОКР

Після екстракції тексту випробуйте вихід для точності. якщо це необхідно, ви можете друкувати налаштування OCR, щоб поліпшити результати для різних оформлень документів.

Загальні питання та рішення

Недостатня точність OCR

  • Рішення: Переконайтеся, що сканована якість PDF є високою. використовуйте скани високої роздільної здатності для поліпшення точності розпізнавання.

2 Непідтримлені шрифти

  • Рішення: забезпечити правильне розташування мови в опціях OCR для підвищення розпізнавання для не-латинських персонажів.

3. повільні результати

  • Рішення: Розрізати PDF на дрібні частини або сторінки для більш швидкого обробки, особливо для великих документів.
 Українська