چگونه فایل‌های PDF اسکن شده را به اسناد متنی قابل جستجو در .NET تبدیل کنیم

چگونه فایل‌های PDF اسکن شده را به اسناد متنی قابل جستجو در .NET تبدیل کنیم

اسناد PDF اسکن شده معمولاً فایل‌های غیرقابل ویرایش و مبتنی بر تصویر هستند که استخراج متن از آن‌ها را دشوار می‌کند. با این حال، با Aspose.OCR برای .NET، می‌توانید به سرعت این PDFهای اسکن شده را به اسناد متنی قابل ویرایش و جستجو تبدیل کنید که بازیابی داده‌ها و مدیریت اسناد را بسیار آسان‌تر می‌کند.

چرا باید PDFهای اسکن شده را به متن قابل جستجو تبدیل کنید؟

  1. دسترس‌پذیری بهبود یافته:
    • PDFهای اسکن شده می‌توانند به متنی تبدیل شوند که قابل جستجو و ویرایش باشد و دسترسی به محتوا را بهتر کند.
  2. سازماندهی داده‌ها:
    • پس از تبدیل، متن می‌تواند سازماندهی، دستکاری و در فرمت‌های مختلف مانند Word، Excel یا متن ساده دوباره استفاده شود.
  3. حفظ محتوا:
    • Aspose.OCR اطمینان می‌دهد که تصاویر و طرح‌بندی اصلی در حین استخراج متن حفظ می‌شود و به شما هم محتوا و هم زمینه را می‌دهد.

پیش‌نیازها: آماده‌سازی برای تبدیل PDF اسکن شده

قبل از شروع فرآیند استخراج متن از PDFهای اسکن شده، مطمئن شوید که موارد زیر رعایت شده است:

  1. نصب Aspose.OCR برای .NET:
    • کتابخانه لازم را با استفاده از NuGet با دستور زیر نصب کنید:
      dotnet add package Aspose.OCR
  2. پیکربندی مجوز:
    • یک مجوز متری به دست آورید و با استفاده از متد SetMeteredKey() آن را پیکربندی کنید تا تمام ویژگی‌ها را فعال کنید.
  3. آماده‌سازی PDFهای اسکن شده:
    • اطمینان حاصل کنید که PDFهای اسکن شده شما از کیفیت خوبی (300 DPI یا بالاتر) برخوردارند تا بهترین نتایج OCR را به دست آورید.

راهنمای گام به گام برای تبدیل PDFهای اسکن شده به متن

گام 1: پیکربندی مجوز خود

با پیکربندی مجوز Aspose.OCR خود شروع کنید تا به تمام ویژگی‌ها دسترسی کامل داشته باشید.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

گام 2: بارگذاری PDF اسکن شده به شیء ورودی OCR

فایل PDF اسکن شده را به موتور OCR برای شناسایی متن بارگذاری کنید.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

گام 3: پیکربندی موتور OCR برای شناسایی

موتور OCR را برای بهینه‌سازی استخراج متن از PDF اسکن شده راه‌اندازی کنید.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

گام 4: استخراج و ذخیره متن شناسایی شده

PDF اسکن شده را پردازش کنید تا متن را استخراج کرده و آن را به یک فایل خروجی دهید.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

گام 5: تست متن شناسایی شده

پس از استخراج، دقت شناسایی متن را با بررسی فایل خروجی یا نمایش آن در کنسول تأیید کنید.


مشکلات رایج و راه‌حل‌ها

1. دقت پایین OCR

  • راه‌حل: اطمینان حاصل کنید که کیفیت PDF اسکن شده بالا (300 DPI یا بیشتر) باشد تا دقت شناسایی بهتری داشته باشید.

2. شناسایی زبان نادرست

  • راه‌حل: برای نتایج بهتر، به‌ویژه برای کاراکترهای غیرلاتین، به‌صراحت تنظیم زبان را در RecognitionSettings مشخص کنید.

3. عملکرد کند برای فایل‌های بزرگ

  • راه‌حل: PDFهای بزرگ را به صورت تکه‌ای پردازش کنید یا استفاده از حافظه را بهینه‌سازی کنید تا فرآیند OCR سریع‌تر شود.
 فارسی