Как да конвертирате сканираните PDF файлове в търсещи текстови документи в .NET
Сканираните PDF файлове обикновено са не-редактирани, базирани на изображения, което прави трудно да се извлече текст от тях. обаче, с Aspose.OCR за .NET, можете бързо да трансформирате тези сканирани PDF в редактируеми, търсещи текстови документи, които правят събирането на данни и управлението на документи много по-лесно.
Защо трябва да конвертирате сканираните PDF файлове в търсещ текст?
Подобрена достъпност:- Сканираните PDF файлове могат да бъдат конвертирани в текст, който може да се търси и редактира, което позволява по-добра достъпност на съдържанието.
Организация на данните:- След конвертиране, текстът може да бъде организиран, манипулиран и повторно използван в различни формати като Word, Excel или плосък текст.
Съдържание на съдържание:- Aspose.OCR гарантира, че оригиналните изображения и оформление се запазват, докато текстът е извлечен, като ви дава както съдържание, така и контекст.
Предупреждения: Подгответе се за сканирана PDF конверсия
Преди да започнете процеса на извличане на текст от скенираните PDF файлове, уверете се, че:
Инсталирайте Aspose.OCR за .NET:- Инсталирайте необходимата библиотека с помощта на NuGet с командата:
dotnet add package Aspose.OCR
Лицензионна конфигурация:- Obtain and configure a metered license using the
SetMeteredKey()
method to unlock all features.Подгответе сканираните си PDF файлове:- PDF файлове са в добро качество (300 DPI или по-високо) за най-добрите резултати от OCR.
Стъпка по стъпка ръководство за преобразуване на сканираните PDF файлове в текст
Стъпка 1: Направете лиценз
Започнете с конфигурирането на вашата Aspose.OCR лиценза, за да осигурите пълен достъп до функциите.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Стъпка 2: Изтеглете сканирания PDF в OCR Input Object
Изтеглете скенирания PDF файл в OCR двигателя за разпознаване на текста.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Стъпка 3: Конфигуриране на двигателя OCR за разпознаване
OCR двигателя, за да оптимизирате извличането на текст от скенирания PDF.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Стъпка 4: Извлечете и запазете признатия текст
Процесирате скенирания PDF, за да извлечете текста и да го изтеглите в файл.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Стъпка 5: Изпробвайте признатия текст
След екстракцията проверете точността на текстовото разпознаване, като проверите изходния файл или го покажете на конзолата.
Общи проблеми и фиксиране
Лоша точност на OCR
- Решение: Уверете се, че качеството на скенирания PDF е високо (300 DPI или повече) за по-добра точност на разпознаването.
Неправилно езиково разпознаване
- Решение: изрично посочете езиковите настройки в RecognitionSettings за по-добри резултати, особено за не-латински символи.
Бърза ефективност за големи файлове
- Решение: Обработване на големи PDF файлове в парчета или оптимизиране на използването на паметта, за да се ускори процеса на OCR.