Како претворити скениране ПДФ-а у претраживајуће текстуалне документе у .NET
Скенирани ПДФ су обично не-редактиви, слике-базирани датотеке, што чини тешко да се извуче текст из њих. међутим, са Aspose.OCR за .NET, можете брзо претворити ове скениране ПдФ у уређујуће, претраживе текстуалне документе који чине прикупљање података и управљање документима много лакшим.
Зашто би требало да конвертујете скениране ПДФ-а у претраживачки текст?
Побољшана приступачност:- Скенирани ПДФ-а могу се конвертовати у текст који је претраживајући и уређивајући, омогућавајући бољу приступачност садржају.
Организација података:- Када је конвертовано, текст се може организовати, манипулисати и поново користити у различитим форматима као што су Ворд, Екцел или плоски текст.
Задржавање садржаја:- Aspose.OCR обезбеђује да се оригиналне слике и распоред чувају док се текст извлачи, дајући вам и садржај и контекст.
Принципи: Припрема за скенирање ПДФ конверзије
Пре него што почнете процес извлачења текста из скенираних ПДФ-а, уверите се да:
Инсталирајте Aspose.OCR за .NET:- Инсталирајте потребну библиотеку користећи НуГет са командом:
dotnet add package Aspose.OCR
Конфигурација лиценце:- Obtain and configure a metered license using the
SetMeteredKey()
method to unlock all features.Припремите своје скениране ПДФ-а:- Уверите се да су ваше скениране ПДФ-а у добром квалитету (300 ДПИ или више) за најбоље ОЦР резултате.
Корак по корак водич за конверзију скенираних ПДФ-а у текст
Корак 1: Поставите своју лиценцу
Почните конфигурисањем ваше лиценце Aspose.OCR како би се осигурао потпуни приступ функцијама.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Корак 2: Преузмите Скенирани ПДФ у ОЦР улазни објекат
Преузмите скенирани ПДФ датотеку у ОЦР мотор за препознавање текста.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Корак 3: Конфигуришите ОЦР мотор за препознавање
Поставите ОЦР мотор да бисте оптимизовали екстракцију текста из скенираног ПДФ-а.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Корак 4: Екстрактирајте и сачувате препознати текст
Обрада скенираног ПДФ-а да бисте извукли текст и извукли га у датотеку.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Корак 5: Тест препознатог текста
Након екстракције, проверите тачност препознавања текста проверавајући излазни датотеку или приказујући га на конзоли.
Уобичајени проблеми и фиксирања
Недостатак ОЦР прецизности
- Решење: Уверите се да је скенирани ПДФ квалитет висок (300 ДПИ или више) за бољу прецизност препознавања.
Неправилно препознавање језика
- Решење: Ексклузивно наведете подешавање језика у RecognitionSettings за боље резултате, посебно за не-латинске знакове.
Slabije performanse za velike datoteke
- Решење: Обрада великих ПДФ-а у комадима или оптимизација коришћења меморије како би се убрзао ОЦР процес.