چگونه فایل‌های PDF اسکن‌شده را به اسناد متنی قابل جستجو در .NET تبدیل کنیم

چگونه فایل‌های PDF اسکن‌شده را به اسناد متنی قابل جستجو در .NET تبدیل کنیم

اسناد PDF اسکن شده معمولاً کار کردن با آن‌ها چالش‌برانگیز است زیرا اساساً فقط تصاویری از متن هستند. تبدیل این تصاویر به اسناد متنی قابل جستجو و ویرایش، دنیایی از امکانات را برای مدیریت اسناد و دسترسی به محتوا باز می‌کند. با Aspose.OCR for .NET، می‌توانید اسناد PDF اسکن شده را به اسناد کاملاً قابل جستجو تبدیل کنید در حالی که تصاویر اصلی را حفظ می‌کنید.

چرا اسناد PDF اسکن شده را به اسناد متنی قابل جستجو تبدیل کنیم؟

  1. دسترس‌پذیری:
    • محتوای اسکن شده را قابل جستجو کنید تا پیدا کردن اطلاعات بدون خواندن دستی سند آسان شود.
  2. ویرایش محتوا:
    • پس از تبدیل به متن، محتوا می‌تواند ویرایش، به‌روزرسانی یا در فرمت‌های دیگر استفاده شود.
  3. کارایی:
    • با اتوماسیون فرآیند تبدیل اسناد PDF اسکن شده به اسناد متنی کاملاً قابل دسترسی، در زمان صرفه‌جویی کنید.

پیش‌نیازها: تنظیمات برای استخراج متن از PDF اسکن شده

قبل از استخراج متن از PDF های اسکن شده، مراحل زیر را دنبال کنید تا اطمینان حاصل کنید که همه چیز تنظیم شده است:

  1. نصب Aspose.OCR for .NET:
    • Aspose.OCR را به پروژه خود با استفاده از NuGet اضافه کنید:
      dotnet add package Aspose.OCR
  2. مجوز خود را دریافت کنید:
    • مجوز متری خود را با استفاده از SetMeteredKey() تنظیم کنید تا تمام عملکردهای Aspose.OCR را باز کنید.
  3. PDF اسکن شده خود را آماده کنید:
    • اطمینان حاصل کنید که PDF های اسکن شده از کیفیت خوبی برخوردارند تا دقت شناسایی بهتری داشته باشید.

راهنمای گام به گام: تبدیل PDF های اسکن شده به متن قابل جستجو

گام 1: تنظیم مجوز خود

با پیکربندی مجوز Aspose.OCR خود شروع کنید تا تمام ویژگی‌ها را باز کنید.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("مجوز با موفقیت پیکربندی شد.");

گام 2: بارگذاری PDF اسکن شده در شیء ورودی OCR

سپس، PDF اسکن شده را در شیء OcrInput بارگذاری کنید تا فرآیند OCR آغاز شود.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // پردازش 3 صفحه اول
Console.WriteLine("PDF اسکن شده با موفقیت بارگذاری شد.");

گام 3: پیکربندی موتور OCR برای شناسایی

موتور OCR را تنظیم کنید و هرگونه تنظیمات شناسایی، مانند زبان و دقت را پیکربندی کنید.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // تنظیم زبان OCR
Console.WriteLine("موتور OCR پیکربندی شد.");

گام 4: استخراج و خروجی متن شناسایی‌شده

اکنون، متن را از PDF اسکن شده با استفاده از موتور OCR استخراج کنید.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("متن با موفقیت از PDF اسکن شده استخراج شد.");

// خروجی متن شناسایی‌شده
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// ذخیره نتیجه در یک فایل متنی
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("متن در recognized_text.txt ذخیره شد.");

گام 5: آزمایش PDF قابل جستجو

اطمینان حاصل کنید که متن استخراج شده قابل جستجو و ویرایش است با آزمایش خروجی در یک مشاهده‌گر یا ویرایشگر PDF.

مشکلات و راه‌حل‌های رایج

1. دقت پایین OCR

  • راه‌حل: اطمینان حاصل کنید که PDF اسکن شده از کیفیت بالایی برخوردار است (حداقل 300 DPI) تا نتایج شناسایی بهبود یابد.

2. فونت‌های پشتیبانی‌نشده

  • راه‌حل: اطمینان حاصل کنید که زبان صحیح در تنظیمات OCR برای شناسایی دقیق متن تنظیم شده است، به‌ویژه برای کاراکترهای غیر لاتین.

3. عملکرد کند برای PDF های بزرگ

  • راه‌حل: برای PDF های بزرگ، سند را در قطعات یا صفحات کوچکتر پردازش کنید تا مصرف حافظه را کاهش دهید و سرعت فرآیند را افزایش دهید.
 فارسی