Как да конвертирате сканираните PDF до търсещи текстови документи в .NET
Скенираните PDF файлове често са предизвикателни да работят с тях, защото в основата им са само изображения на текст. Преобразуването на тези снимки в търсещи, редактируеми текстови документи отваря свят на възможности за управление на документи и достъпност на съдържанието. С Aspose.OCR за .NET можете да конвертирате скенираните PDF файл в пълно търсене документи, като същевременно запазвате оригиналните снимки.
Защо да конвертирате скенираните PDF файлове в търсещи текстови документи?
Достъпност и достъпност:- Направете скенираното съдържание търсещо, което улеснява намирането на информация без ръчно четене през документа.
Редактиране на съдържание:- След като се конвертира в текст, съдържанието може да бъде редактирано, актуализирано или повторно използвано в други формати.
Ефективност“ е:- Спестете време, като автоматизирате процеса на конвертиране на скенираните PDF файлове в напълно достъпни текстови документи.
Предупреждения: Настройки за сканиран PDF текст екстракция
Преди да извлечете текст от скенираните PDF файлове, следвайте следните стъпки, за да се уверите, че всичко е зададено:
Инсталирайте Aspose.OCR за .NET:- Добавете Aspose.OCR към вашия проект с помощта на NuGet:
dotnet add package Aspose.OCR
Получаване на Вашия лиценз:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Подгответе Вашия сканиран PDF:- Уверете се, че скенираните PDF файлове са с добро качество за по-добра точност на разпознаването.
Стъпка по стъпка: Преобразуване на сканираните PDF файлове в търсещ текст
Стъпка 1: Направете лиценз
Започнете, като конфигурирате лиценза Aspose.OCR, за да отключите всички функции.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Стъпка 2: Изтеглете сканирания PDF в OCR Input Object
След това изтеглите скенирания PDF в обекта OcrInput, за да започнете процеса на OCR.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Стъпка 3: Конфигуриране на двигателя OCR за разпознаване
Инсталирайте OCR двигателя и конфигурирайте настройките за разпознаване, като например език и точност.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Стъпка 4: Извлечете и извлечете признатия текст
PDF с помощта на двигателя OCR.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Стъпка 5: Проверете търсения PDF
Уверете се, че извлеченият текст може да бъде търсим и редактиран, като тествате резултата в PDF преглеждач или редактор.
Общи проблеми и фиксиране
Ниска точност на OCR
- Решение: Уверете се, че скенираният PDF е с високо качество (най-малко 300 DPI), за да подобрите резултатите от разпознаването.
Недостатъчни шрифтове
- Решение: Уверете се, че правилният език е зададен в настройките на OCR за точно разпознаване на текста, особено за не-латински знаци.
Бързо изпълнение за големи PDF файлове
- Решение: За големи PDF файлове обработвайте документа в по-малки парчета или страници, за да намалите използването на паметта и да ускорите процеса.