Како претворити скениране ПДФ-а у претраживајуће текстуалне документе у .NET

Како претворити скениране ПДФ-а у претраживајуће текстуалне документе у .NET

Скенирани ПДФ су обично не-редактиви, слике-базирани датотеке, што чини тешко да се извуче текст из њих. међутим, са Aspose.OCR за .NET, можете брзо претворити ове скениране ПдФ у уређујуће, претраживе текстуалне документе који чине прикупљање података и управљање документима много лакшим.

Зашто би требало да конвертујете скениране ПДФ-а у претраживачки текст?

  • Побољшана приступачност:- Скенирани ПДФ-а могу се конвертовати у текст који је претраживајући и уређивајући, омогућавајући бољу приступачност садржају.

  • Организација података:- Када је конвертовано, текст се може организовати, манипулисати и поново користити у различитим форматима као што су Ворд, Екцел или плоски текст.

  • Задржавање садржаја:- Aspose.OCR обезбеђује да се оригиналне слике и распоред чувају док се текст извлачи, дајући вам и садржај и контекст.

Принципи: Припрема за скенирање ПДФ конверзије

Пре него што почнете процес извлачења текста из скенираних ПДФ-а, уверите се да:

  • Инсталирајте Aspose.OCR за .NET:- Инсталирајте потребну библиотеку користећи НуГет са командом: dotnet add package Aspose.OCR

  • Конфигурација лиценце:- Obtain and configure a metered license using the SetMeteredKey() method to unlock all features.

  • Припремите своје скениране ПДФ-а:- Уверите се да су ваше скениране ПДФ-а у добром квалитету (300 ДПИ или више) за најбоље ОЦР резултате.

Корак по корак водич за конверзију скенираних ПДФ-а у текст

Корак 1: Поставите своју лиценцу

Почните конфигурисањем ваше лиценце Aspose.OCR како би се осигурао потпуни приступ функцијама.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Корак 2: Преузмите Скенирани ПДФ у ОЦР улазни објекат

Преузмите скенирани ПДФ датотеку у ОЦР мотор за препознавање текста.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Корак 3: Конфигуришите ОЦР мотор за препознавање

Поставите ОЦР мотор да бисте оптимизовали екстракцију текста из скенираног ПДФ-а.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Корак 4: Екстрактирајте и сачувате препознати текст

Обрада скенираног ПДФ-а да бисте извукли текст и извукли га у датотеку.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Корак 5: Тест препознатог текста

Након екстракције, проверите тачност препознавања текста проверавајући излазни датотеку или приказујући га на конзоли.

Уобичајени проблеми и фиксирања

Недостатак ОЦР прецизности

  • Решење: Уверите се да је скенирани ПДФ квалитет висок (300 ДПИ или више) за бољу прецизност препознавања.

Неправилно препознавање језика

  • Решење: Ексклузивно наведете подешавање језика у RecognitionSettings за боље резултате, посебно за не-латинске знакове.

Slabije performanse za velike datoteke

  • Решење: Обрада великих ПДФ-а у комадима или оптимизација коришћења меморије како би се убрзао ОЦР процес.
 Српски