Како извући текст из скенираних ПДФ-а у .НЕТ користећи Асписе.ОЦР

Како извући текст из скенираних ПДФ-а у .НЕТ користећи Асписе.ОЦР

Скенирани ПДФ су често изазовни да раде са јер су у суштини само слике текста. Претварање ових слика у претраживајуће, уређивајуће текстуалне документе отвара свет могућности за управљање документима и приступачност садржаја. са Аспозе.ОЦР за .НЕТ, можете конвертовати скениране ПдФ у потпуно прегледајућег документа док сачувате оригиналне фотографије.

Зашто је ОЦР (оптичка препознавање карактера) важна за скениране ПДФ-а

  • Екстракција података:- ОЦР вам омогућава да конвертујете скенирани текст у машински читаве податке, које се могу уређивати и индексирати.

  • Претраживање:- Претварањем скенираних ПДФ-а у претраживајуће документе, можете брзо пронаћи релевантне информације без ручног претраживања кроз странице.

  • Побољшана продуктивност:- Сачувајте време аутоматизацијом конверзије скенираних докумената у уређујуће формати као што су Ворд или Екцел.

Претходни Чланак: Подешавање за скениране PDF текстуалне екстракције

Пре него што почнете да извлачите текст из скенираних ПДФ-а, уверите се да су следећи кораци завршени:

  • Инсталирајте Aspose.OCR за .NET:- Додајте Aspose.OCR у свој пројекат користећи NuGet: dotnet add package Aspose.OCR

  • Добијте Метрирани Лиценца:- Set up your metered license to unlock all features of the Aspose.OCR library using SetMeteredKey().

  • Припремите своје скениране ПДФ-а:- Уверите се да су ваше скениране ПДФ-а високог квалитета. боље квалитетне резултате у прецизнијим ОЦР-ом.

Корак по корак водич: Извлачење текста из скенираних ПДФ-а

Корак 1: Инсталирајте потребну библиотеку

Почните инсталирајући Aspose.OCR за .NET у свој пројекат. можете то урадити директно из NuGet-а.

dotnet add package Aspose.OCR

Корак 2: Поставите своје лиценцијске кључеве

Пре поступка, конфигуришите своју лиценцу за Aspose.OCR да бисте откључили све функције.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Корак 3: Преузмите Скенирани ПДФ у ОЦР улазни објекат

You’ll need to load the scanned PDF into the OcrInput object. Aspose.OCR supports scanning multiple pages of a PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Корак 4: Обрада скенираног ПДФ-а користећи ОЦР мотор

Са ПДФ-ом, пренесите га на Аспозе ОЦР мотор за препознавање.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Корак 5: Изаберите препознатљив текст или га сачувате

Када ОЦР мотор обрађује ПДФ, можете или извући препознати текст директно или га сачувати у датотеку.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Корак 6: Тест и оптимизација ОЦР резултата

Након извлачења текста, тестирајте излаз за тачност. ако је потребно, можете тирати ОЦР подешавања како бисте побољшали резултате за различите распореде докумената.

Уобичајени проблеми и фиксирања

Недостатак ОЦР прецизности

  • Решење: Уверите се да је квалитет скенираног ПДФ-а висок.

2 Неподржани фонтови

  • Решење: Обезбедите правилно подешавање језика у опцијама ОЦР-а како би се побољшало препознавање не-латинских карактера.

3. споро перформансе

  • Решење: Раздвојите ПДФ у мање комаде или странице за бржу обраду, посебно за велике документе.
 Српски