Як перетворити скановані PDF-файли в пошукові текстові документи в .NET

Як перетворити скановані PDF-файли в пошукові текстові документи в .NET

Скановані PDF-файли, як правило, не редагуються, зображені файли, що робить важко витягувати текст з них. однак, з Aspose.OCR для .NET, ви можете швидко перетворити ці скановані PDF-файли в редагувальні, пошукові текстові документи, які роблять збирання даних і управління документами набагато простіше.

Чому потрібно перетворювати скановані PDF-файли на пошуковий текст?

  • Підвищена доступність:- Скановані PDF-файли можуть бути конвертовані в текст, який можна шукати і редагувати, що дозволяє кращу доступність контенту.

  • Організація даних:- Після конвертації текст може бути організований, маніпулюється і повторно використовується в різних форматах, таких як Word, Excel або плавний текст.

  • Зберігання контенту:- Aspose.OCR гарантує, що оригінальні зображення і розташування зберігаються, поки текст витягується, даючи вам як вміст, так і контекст.

Вимоги: Підготуватися до сканованої конверсії PDF

Перед тим, як почати процес екстракції тексту з сканованих ПДФ, переконайтеся, що:

  • Завантажити Aspose.OCR для .NET:- Налаштуйте необхідну бібліотеку за допомогою NuGet з командою: dotnet add package Aspose.OCR

  • Конфігурація ліцензії:- Завантажити та встановити ліцензію за допомогою SetMeteredKey() Метод розблокування всіх функцій.

  • Підготуйте свої скановані PDF-диски:- Переконайтеся, що ваші скановані PDF-файли в хорошій якості (300 ДПІ або вище) для кращих результатів OCR.

Крок за кроком Посібник для перетворення сканованих PDF-файлів в текст

Крок 1: Налаштуйте ліцензію

Почніть конфігуруючи вашу ліцензію Aspose.OCR, щоб забезпечити повний доступ до функцій.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Крок 2: Завантажити сканований PDF в об’єкт входу OCR

Завантажити сканований PDF-файл в OCR-мотор для розпізнавання тексту.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Крок 3: Налаштування двигуна OCR для розпізнавання

Налаштуйте двигун OCR для оптимізації витягу тексту з сканованого PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Крок 4: Витяг і збереження визнаного тексту

Процесуйте сканований PDF, щоб витягти текст і вивести його в файл.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Крок 5: Перевірка визнаного тексту

Після екстракції перевіряйте точність текстового розпізнавання, перевіряючи вихідний файл або показуючи його на консолі.

Загальні питання та рішення

Недостатня точність OCR

  • Рішення: Переконайтеся, що сканована якість PDF є високою (300 ДПІ або більше) для кращої точності розпізнавання.

Неправильне визнання мови

  • Рішення: Визначте налаштування мови в RecognitionSettings для кращих результатів, особливо для нелатинських символів.

Поступова продуктивність для великих файлів

  • Рішення: обробка великих PDF-файлів в шматочках або оптимізація використання пам’яті для прискорення процесу ОКР.
 Українська