Как да конвертирате сканираните PDF до търсещи текстови документи в .NET

Скенираните PDF файлове често са предизвикателни да работят с тях, защото в основата им са само изображения на текст. Преобразуването на тези снимки в търсещи, редактируеми текстови документи отваря свят на възможности за управление на документи и достъпност на съдържанието. С Aspose.OCR за .NET можете да конвертирате скенираните PDF файл в пълно търсене документи, като същевременно запазвате оригиналните снимки.

Защо да конвертирате скенираните PDF файлове в търсещи текстови документи?

Достъпност и достъпност:- Направете скенираното съдържание търсещо, което улеснява намирането на информация без ръчно четене през документа.
Редактиране на съдържание:- След като се конвертира в текст, съдържанието може да бъде редактирано, актуализирано или повторно използвано в други формати.
Ефективност“ е:- Спестете време, като автоматизирате процеса на конвертиране на скенираните PDF файлове в напълно достъпни текстови документи.

Предупреждения: Настройки за сканиран PDF текст екстракция

Преди да извлечете текст от скенираните PDF файлове, следвайте следните стъпки, за да се уверите, че всичко е зададено:

Инсталирайте Aspose.OCR за .NET:- Добавете Aspose.OCR към вашия проект с помощта на NuGet: dotnet add package Aspose.OCR
Получаване на Вашия лиценз:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.
Подгответе Вашия сканиран PDF:- Уверете се, че скенираните PDF файлове са с добро качество за по-добра точност на разпознаването.

Стъпка по стъпка: Преобразуване на сканираните PDF файлове в търсещ текст

Стъпка 1: Направете лиценз

Започнете, като конфигурирате лиценза Aspose.OCR, за да отключите всички функции.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Стъпка 2: Изтеглете сканирания PDF в OCR Input Object

След това изтеглите скенирания PDF в обекта OcrInput, за да започнете процеса на OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Стъпка 3: Конфигуриране на двигателя OCR за разпознаване

Инсталирайте OCR двигателя и конфигурирайте настройките за разпознаване, като например език и точност.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Стъпка 4: Извлечете и извлечете признатия текст

PDF с помощта на двигателя OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Стъпка 5: Проверете търсения PDF

Уверете се, че извлеченият текст може да бъде търсим и редактиран, като тествате резултата в PDF преглеждач или редактор.

Общи проблеми и фиксиране

Ниска точност на OCR

Решение: Уверете се, че скенираният PDF е с високо качество (най-малко 300 DPI), за да подобрите резултатите от разпознаването.

Недостатъчни шрифтове

Решение: Уверете се, че правилният език е зададен в настройките на OCR за точно разпознаване на текста, особено за не-латински знаци.

Бързо изпълнение за големи PDF файлове

Решение: За големи PDF файлове обработвайте документа в по-малки парчета или страници, за да намалите използването на паметта и да ускорите процеса.