Како претворити скениране ПДФ-а у претраживајуће текстуалне документе у .NET-у

Како претворити скениране ПДФ-а у претраживајуће текстуалне документе у .NET-у

Скенирани ПДФ су често изазовни да раде са јер су у суштини само слике текста. Претварање ових слика у претраживајуће, уређивајуће текстуалне документе отвара свет могућности за управљање документима и приступачност садржаја. са Аспозе.ОЦР за .НЕТ, можете конвертовати скениране ПдФ у потпуно прегледајућег документа док сачувате оригиналне фотографије.

Зашто претворити скениране ПДФ-а у претраживајуће текстуалне документе?

  • Доступност:- Направите скенирани садржај претраживајући, чинећи је лако пронаћи информације без ручног читања кроз документ.

  • Редактирање садржаја:- Након конверзије у текст, садржај се може уређивати, ажурирати или поново користити у другим форматима.

  • Ефикасност:- Сачувајте време аутоматизацијом процеса конверзије скенираних ПДФ-а у потпуно приступачне текстуалне документе.

Претходни Чланак: Подешавање за скениране PDF текстуалне екстракције

Пре извлачења текста из скенираних ПДФ-а, пратите ове кораке како бисте осигурали да је све постављено:

  • Инсталирајте Aspose.OCR за .NET:- Додајте Aspose.OCR у свој пројекат користећи NuGet: dotnet add package Aspose.OCR

  • Добијте своју лиценцу:- Set up your metered license using SetMeteredKey() to unlock the full functionality of Aspose.OCR.

  • Подређивање вашег скенираног ПДФ:- Уверите се да су скенирани ПДФ-а доброг квалитета за бољу прецизност препознавања.

Корак по корак водич: Конвертирање скенираних ПДФ-а у претраживајући текст

Корак 1: Поставите своју лиценцу

Почните конфигурисањем Аппосе.ОЦР лиценце да бисте откључили све функције.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Корак 2: Преузмите Скенирани ПДФ у ОЦР улазни објекат

Следеће, преузмите скенирани ПДФ у објекат OcrInput да бисте започели ОЦР процес.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Корак 3: Конфигуришите ОЦР мотор за препознавање

Поставите ОЦР мотор и конфигуришете било какве подешавања препознавања, као што су језик и тачност.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Корак 4: Истраживање и излазак препознатог текста

Сада извуците текст из скенираног ПДФ-а користећи ОЦР мотор.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Корак 5: Тест претраживајућег ПДФ-а

Уверите се да је извучен текст претраживо и уређујуће тестирајући излаз у ПДФ прегледачу или уређају.

Уобичајени проблеми и фиксирања

Ниска ОЦР прецизност

  • Решење: Уверите се да је скенирани ПДФ високог квалитета (најмање 300 ДПИ) како би се побољшали резултати препознавања.

2 Неподржани фонтови

  • Решење: Уверите се да је прави језик постављен у подешавањама ОЦР-а за тачно препознавање текста, посебно за не-латинске знакове.

3. споро перформансе за велике ПДФ

  • Решење: За велике ПДФ-а, обрадите документ у мањим комадима или страницама како бисте смањили употребу меморије и убрзали процес.
 Српски