چگونه فایلهای PDF اسکنشده را به اسناد متنی قابل جستجو در .NET تبدیل کنیم
اسناد PDF اسکن شده معمولاً کار کردن با آنها چالشبرانگیز است زیرا اساساً فقط تصاویری از متن هستند. تبدیل این تصاویر به اسناد متنی قابل جستجو و ویرایش، دنیایی از امکانات را برای مدیریت اسناد و دسترسی به محتوا باز میکند. با Aspose.OCR for .NET، میتوانید اسناد PDF اسکن شده را به اسناد کاملاً قابل جستجو تبدیل کنید در حالی که تصاویر اصلی را حفظ میکنید.
چرا اسناد PDF اسکن شده را به اسناد متنی قابل جستجو تبدیل کنیم؟
- دسترسپذیری:
- محتوای اسکن شده را قابل جستجو کنید تا پیدا کردن اطلاعات بدون خواندن دستی سند آسان شود.
- ویرایش محتوا:
- پس از تبدیل به متن، محتوا میتواند ویرایش، بهروزرسانی یا در فرمتهای دیگر استفاده شود.
- کارایی:
- با اتوماسیون فرآیند تبدیل اسناد PDF اسکن شده به اسناد متنی کاملاً قابل دسترسی، در زمان صرفهجویی کنید.
پیشنیازها: تنظیمات برای استخراج متن از PDF اسکن شده
قبل از استخراج متن از PDF های اسکن شده، مراحل زیر را دنبال کنید تا اطمینان حاصل کنید که همه چیز تنظیم شده است:
- نصب Aspose.OCR for .NET:
- Aspose.OCR را به پروژه خود با استفاده از NuGet اضافه کنید:
dotnet add package Aspose.OCR
- Aspose.OCR را به پروژه خود با استفاده از NuGet اضافه کنید:
- مجوز خود را دریافت کنید:
- مجوز متری خود را با استفاده از
SetMeteredKey()
تنظیم کنید تا تمام عملکردهای Aspose.OCR را باز کنید.
- مجوز متری خود را با استفاده از
- PDF اسکن شده خود را آماده کنید:
- اطمینان حاصل کنید که PDF های اسکن شده از کیفیت خوبی برخوردارند تا دقت شناسایی بهتری داشته باشید.
راهنمای گام به گام: تبدیل PDF های اسکن شده به متن قابل جستجو
گام 1: تنظیم مجوز خود
با پیکربندی مجوز Aspose.OCR خود شروع کنید تا تمام ویژگیها را باز کنید.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("مجوز با موفقیت پیکربندی شد.");
گام 2: بارگذاری PDF اسکن شده در شیء ورودی OCR
سپس، PDF اسکن شده را در شیء OcrInput بارگذاری کنید تا فرآیند OCR آغاز شود.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // پردازش 3 صفحه اول
Console.WriteLine("PDF اسکن شده با موفقیت بارگذاری شد.");
گام 3: پیکربندی موتور OCR برای شناسایی
موتور OCR را تنظیم کنید و هرگونه تنظیمات شناسایی، مانند زبان و دقت را پیکربندی کنید.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // تنظیم زبان OCR
Console.WriteLine("موتور OCR پیکربندی شد.");
گام 4: استخراج و خروجی متن شناساییشده
اکنون، متن را از PDF اسکن شده با استفاده از موتور OCR استخراج کنید.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("متن با موفقیت از PDF اسکن شده استخراج شد.");
// خروجی متن شناساییشده
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// ذخیره نتیجه در یک فایل متنی
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("متن در recognized_text.txt ذخیره شد.");
گام 5: آزمایش PDF قابل جستجو
اطمینان حاصل کنید که متن استخراج شده قابل جستجو و ویرایش است با آزمایش خروجی در یک مشاهدهگر یا ویرایشگر PDF.
مشکلات و راهحلهای رایج
1. دقت پایین OCR
- راهحل: اطمینان حاصل کنید که PDF اسکن شده از کیفیت بالایی برخوردار است (حداقل 300 DPI) تا نتایج شناسایی بهبود یابد.
2. فونتهای پشتیبانینشده
- راهحل: اطمینان حاصل کنید که زبان صحیح در تنظیمات OCR برای شناسایی دقیق متن تنظیم شده است، بهویژه برای کاراکترهای غیر لاتین.
3. عملکرد کند برای PDF های بزرگ
- راهحل: برای PDF های بزرگ، سند را در قطعات یا صفحات کوچکتر پردازش کنید تا مصرف حافظه را کاهش دهید و سرعت فرآیند را افزایش دهید.