Како претворити скениране ПДФ-а у претраживајуће текстуалне документе у .NET-у
Скенирани ПДФ су често изазовни да раде са јер су у суштини само слике текста. Претварање ових слика у претраживајуће, уређивајуће текстуалне документе отвара свет могућности за управљање документима и приступачност садржаја. са Аспозе.ОЦР за .НЕТ, можете конвертовати скениране ПдФ у потпуно прегледајућег документа док сачувате оригиналне фотографије.
Зашто претворити скениране ПДФ-а у претраживајуће текстуалне документе?
Доступност:- Направите скенирани садржај претраживајући, чинећи је лако пронаћи информације без ручног читања кроз документ.
Редактирање садржаја:- Након конверзије у текст, садржај се може уређивати, ажурирати или поново користити у другим форматима.
Ефикасност:- Сачувајте време аутоматизацијом процеса конверзије скенираних ПДФ-а у потпуно приступачне текстуалне документе.
Претходни Чланак: Подешавање за скениране PDF текстуалне екстракције
Пре извлачења текста из скенираних ПДФ-а, пратите ове кораке како бисте осигурали да је све постављено:
Инсталирајте Aspose.OCR за .NET:- Додајте Aspose.OCR у свој пројекат користећи NuGet:
dotnet add package Aspose.OCR
Добијте своју лиценцу:- Set up your metered license using
SetMeteredKey()
to unlock the full functionality of Aspose.OCR.Подређивање вашег скенираног ПДФ:- Уверите се да су скенирани ПДФ-а доброг квалитета за бољу прецизност препознавања.
Корак по корак водич: Конвертирање скенираних ПДФ-а у претраживајући текст
Корак 1: Поставите своју лиценцу
Почните конфигурисањем Аппосе.ОЦР лиценце да бисте откључили све функције.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Корак 2: Преузмите Скенирани ПДФ у ОЦР улазни објекат
Следеће, преузмите скенирани ПДФ у објекат OcrInput да бисте започели ОЦР процес.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");
Корак 3: Конфигуришите ОЦР мотор за препознавање
Поставите ОЦР мотор и конфигуришете било какве подешавања препознавања, као што су језик и тачност.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language
Console.WriteLine("OCR engine configured.");
Корак 4: Истраживање и излазак препознатог текста
Сада извуците текст из скенираног ПДФ-а користећи ОЦР мотор.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");
// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");
Корак 5: Тест претраживајућег ПДФ-а
Уверите се да је извучен текст претраживо и уређујуће тестирајући излаз у ПДФ прегледачу или уређају.
Уобичајени проблеми и фиксирања
Ниска ОЦР прецизност
- Решење: Уверите се да је скенирани ПДФ високог квалитета (најмање 300 ДПИ) како би се побољшали резултати препознавања.
2 Неподржани фонтови
- Решење: Уверите се да је прави језик постављен у подешавањама ОЦР-а за тачно препознавање текста, посебно за не-латинске знакове.
3. споро перформансе за велике ПДФ
- Решење: За велике ПДФ-а, обрадите документ у мањим комадима или страницама како бисте смањили употребу меморије и убрзали процес.