Како извући текст из скенираних ПДФ-а у .НЕТ користећи Асписе.ОЦР
Скенирани ПДФ су често изазовни да раде са јер су у суштини само слике текста. Претварање ових слика у претраживајуће, уређивајуће текстуалне документе отвара свет могућности за управљање документима и приступачност садржаја. са Аспозе.ОЦР за .НЕТ, можете конвертовати скениране ПдФ у потпуно прегледајућег документа док сачувате оригиналне фотографије.
Зашто је ОЦР (оптичка препознавање карактера) важна за скениране ПДФ-а
Екстракција података:- ОЦР вам омогућава да конвертујете скенирани текст у машински читаве податке, које се могу уређивати и индексирати.
Претраживање:- Претварањем скенираних ПДФ-а у претраживајуће документе, можете брзо пронаћи релевантне информације без ручног претраживања кроз странице.
Побољшана продуктивност:- Сачувајте време аутоматизацијом конверзије скенираних докумената у уређујуће формати као што су Ворд или Екцел.
Претходни Чланак: Подешавање за скениране PDF текстуалне екстракције
Пре него што почнете да извлачите текст из скенираних ПДФ-а, уверите се да су следећи кораци завршени:
Инсталирајте Aspose.OCR за .NET:- Додајте Aspose.OCR у свој пројекат користећи NuGet:
dotnet add package Aspose.OCR
Добијте Метрирани Лиценца:- Set up your metered license to unlock all features of the Aspose.OCR library using
SetMeteredKey()
.Припремите своје скениране ПДФ-а:- Уверите се да су ваше скениране ПДФ-а високог квалитета. боље квалитетне резултате у прецизнијим ОЦР-ом.
Корак по корак водич: Извлачење текста из скенираних ПДФ-а
Корак 1: Инсталирајте потребну библиотеку
Почните инсталирајући Aspose.OCR за .NET у свој пројекат. можете то урадити директно из NuGet-а.
dotnet add package Aspose.OCR
Корак 2: Поставите своје лиценцијске кључеве
Пре поступка, конфигуришите своју лиценцу за Aspose.OCR да бисте откључили све функције.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
Корак 3: Преузмите Скенирани ПДФ у ОЦР улазни објекат
You’ll need to load the scanned PDF into the OcrInput
object. Aspose.OCR supports scanning multiple pages of a PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
Корак 4: Обрада скенираног ПДФ-а користећи ОЦР мотор
Са ПДФ-ом, пренесите га на Аспозе ОЦР мотор за препознавање.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
Корак 5: Изаберите препознатљив текст или га сачувате
Када ОЦР мотор обрађује ПДФ, можете или извући препознати текст директно или га сачувати у датотеку.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
Корак 6: Тест и оптимизација ОЦР резултата
Након извлачења текста, тестирајте излаз за тачност. ако је потребно, можете тирати ОЦР подешавања како бисте побољшали резултате за различите распореде докумената.
Уобичајени проблеми и фиксирања
Недостатак ОЦР прецизности
- Решење: Уверите се да је квалитет скенираног ПДФ-а висок.
2 Неподржани фонтови
- Решење: Обезбедите правилно подешавање језика у опцијама ОЦР-а како би се побољшало препознавање не-латинских карактера.
3. споро перформансе
- Решење: Раздвојите ПДФ у мање комаде или странице за бржу обраду, посебно за велике документе.