Как да конвертирате сканираните PDF файлове в търсещи текстови документи в .NET

Сканираните PDF файлове обикновено са не-редактирани, базирани на изображения, което прави трудно да се извлече текст от тях. обаче, с Aspose.OCR за .NET, можете бързо да трансформирате тези сканирани PDF в редактируеми, търсещи текстови документи, които правят събирането на данни и управлението на документи много по-лесно.

Защо трябва да конвертирате сканираните PDF файлове в търсещ текст?

Подобрена достъпност:- Сканираните PDF файлове могат да бъдат конвертирани в текст, който може да се търси и редактира, което позволява по-добра достъпност на съдържанието.
Организация на данните:- След конвертиране, текстът може да бъде организиран, манипулиран и повторно използван в различни формати като Word, Excel или плосък текст.
Съдържание на съдържание:- Aspose.OCR гарантира, че оригиналните изображения и оформление се запазват, докато текстът е извлечен, като ви дава както съдържание, така и контекст.

Предупреждения: Подгответе се за сканирана PDF конверсия

Преди да започнете процеса на извличане на текст от скенираните PDF файлове, уверете се, че:

Инсталирайте Aspose.OCR за .NET:- Инсталирайте необходимата библиотека с помощта на NuGet с командата: dotnet add package Aspose.OCR
Лицензионна конфигурация:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.
Подгответе сканираните си PDF файлове:- PDF файлове са в добро качество (300 DPI или по-високо) за най-добрите резултати от OCR.

Стъпка по стъпка ръководство за преобразуване на сканираните PDF файлове в текст

Стъпка 1: Направете лиценз

Започнете с конфигурирането на вашата Aspose.OCR лиценза, за да осигурите пълен достъп до функциите.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Стъпка 2: Изтеглете сканирания PDF в OCR Input Object

Изтеглете скенирания PDF файл в OCR двигателя за разпознаване на текста.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Стъпка 3: Конфигуриране на двигателя OCR за разпознаване

OCR двигателя, за да оптимизирате извличането на текст от скенирания PDF.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Стъпка 4: Извлечете и запазете признатия текст

Процесирате скенирания PDF, за да извлечете текста и да го изтеглите в файл.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Стъпка 5: Изпробвайте признатия текст

След екстракцията проверете точността на текстовото разпознаване, като проверите изходния файл или го покажете на конзолата.

Общи проблеми и фиксиране

Лоша точност на OCR

Решение: Уверете се, че качеството на скенирания PDF е високо (300 DPI или повече) за по-добра точност на разпознаването.

Неправилно езиково разпознаване

Решение: изрично посочете езиковите настройки в RecognitionSettings за по-добри резултати, особено за не-латински символи.

Бърза ефективност за големи файлове

Решение: Обработване на големи PDF файлове в парчета или оптимизиране на използването на паметта, за да се ускори процеса на OCR.