Як перетворити скановані PDF-файли в пошукові текстові документи в .NET
Скановані PDF-файли, як правило, не редагуються, зображені файли, що робить важко витягувати текст з них. однак, з Aspose.OCR для .NET, ви можете швидко перетворити ці скановані PDF-файли в редагувальні, пошукові текстові документи, які роблять збирання даних і управління документами набагато простіше.
Чому потрібно перетворювати скановані PDF-файли на пошуковий текст?
Підвищена доступність:- Скановані PDF-файли можуть бути конвертовані в текст, який можна шукати і редагувати, що дозволяє кращу доступність контенту.
Організація даних:- Після конвертації текст може бути організований, маніпулюється і повторно використовується в різних форматах, таких як Word, Excel або плавний текст.
Зберігання контенту:- Aspose.OCR гарантує, що оригінальні зображення і розташування зберігаються, поки текст витягується, даючи вам як вміст, так і контекст.
Вимоги: Підготуватися до сканованої конверсії PDF
Перед тим, як почати процес екстракції тексту з сканованих ПДФ, переконайтеся, що:
Завантажити Aspose.OCR для .NET:- Налаштуйте необхідну бібліотеку за допомогою NuGet з командою:
dotnet add package Aspose.OCR
Конфігурація ліцензії:- Завантажити та встановити ліцензію за допомогою
SetMeteredKey()
Метод розблокування всіх функцій.Підготуйте свої скановані PDF-диски:- Переконайтеся, що ваші скановані PDF-файли в хорошій якості (300 ДПІ або вище) для кращих результатів OCR.
Крок за кроком Посібник для перетворення сканованих PDF-файлів в текст
Крок 1: Налаштуйте ліцензію
Почніть конфігуруючи вашу ліцензію Aspose.OCR, щоб забезпечити повний доступ до функцій.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Крок 2: Завантажити сканований PDF в об’єкт входу OCR
Завантажити сканований PDF-файл в OCR-мотор для розпізнавання тексту.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Крок 3: Налаштування двигуна OCR для розпізнавання
Налаштуйте двигун OCR для оптимізації витягу тексту з сканованого PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Крок 4: Витяг і збереження визнаного тексту
Процесуйте сканований PDF, щоб витягти текст і вивести його в файл.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Крок 5: Перевірка визнаного тексту
Після екстракції перевіряйте точність текстового розпізнавання, перевіряючи вихідний файл або показуючи його на консолі.
Загальні питання та рішення
Недостатня точність OCR
- Рішення: Переконайтеся, що сканована якість PDF є високою (300 ДПІ або більше) для кращої точності розпізнавання.
Неправильне визнання мови
- Рішення: Визначте налаштування мови в RecognitionSettings для кращих результатів, особливо для нелатинських символів.
Поступова продуктивність для великих файлів
- Рішення: обробка великих PDF-файлів в шматочках або оптимізація використання пам’яті для прискорення процесу ОКР.