چگونه متن را از PDF های اسکن شده در .NET با استفاده از Aspose.OCR استخراج کنیم

چگونه متن را از PDF های اسکن شده در .NET با استفاده از Aspose.OCR استخراج کنیم

Scanned PDFs معمولاً کار با آنها چالش‌برانگیز است زیرا اساساً فقط تصاویری از متن هستند. تبدیل این تصاویر به اسناد متنی قابل جستجو و ویرایش، دنیایی از امکانات را برای مدیریت اسناد و دسترسی به محتوا باز می‌کند. با Aspose.OCR for .NET، می‌توانید PDFهای اسکن‌شده را به اسناد کاملاً قابل جستجو تبدیل کنید در حالی که تصاویر اصلی را حفظ می‌کنید.

چرا OCR (تشخیص کاراکتر نوری) برای PDFهای اسکن‌شده مهم است

  1. استخراج داده:
    • OCR به شما این امکان را می‌دهد که متن‌های اسکن‌شده را به داده‌های قابل خواندن توسط ماشین تبدیل کنید که می‌توان آنها را ویرایش و فهرست‌بندی کرد.
  2. قابلیت جستجو:
    • با تبدیل PDFهای اسکن‌شده به اسناد قابل جستجو، می‌توانید به سرعت اطلاعات مرتبط را بدون جستجوی دستی در صفحات پیدا کنید.
  3. بهبود بهره‌وری:
    • با خودکارسازی تبدیل اسناد اسکن‌شده به فرمت‌های قابل ویرایش مانند Word یا Excel زمان خود را صرفه‌جویی کنید.

پیش‌نیازها: آماده‌سازی برای استخراج متن از PDFهای اسکن‌شده

قبل از شروع استخراج متن از PDFهای اسکن‌شده خود، اطمینان حاصل کنید که مراحل زیر کامل شده است:

  1. نصب Aspose.OCR for .NET:
    • Aspose.OCR را به پروژه خود با استفاده از NuGet اضافه کنید:
      dotnet add package Aspose.OCR
  2. دریافت مجوز متری:
    • مجوز متری خود را تنظیم کنید تا تمام ویژگی‌های کتابخانه Aspose.OCR را باز کنید با استفاده از SetMeteredKey().
  3. آماده‌سازی PDFهای اسکن‌شده:
    • مطمئن شوید که PDFهای اسکن‌شده شما با کیفیت بالا هستند. کیفیت بهتر منجر به دقت بیشتر OCR می‌شود.

راهنمای گام به گام: استخراج متن از PDFهای اسکن‌شده

گام 1: نصب کتابخانه مورد نیاز

با نصب Aspose.OCR for .NET در پروژه خود شروع کنید. می‌توانید این کار را مستقیماً از NuGet انجام دهید.

dotnet add package Aspose.OCR

گام 2: تنظیم کلیدهای مجوز

قبل از ادامه، مجوز خود را برای Aspose.OCR تنظیم کنید تا تمام ویژگی‌ها را باز کنید.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

گام 3: بارگذاری PDF اسکن‌شده به شیء ورودی OCR

شما باید PDF اسکن‌شده را به شیء OcrInput بارگذاری کنید. Aspose.OCR از اسکن چندین صفحه PDF پشتیبانی می‌کند.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // پردازش 3 صفحه اول PDF
Console.WriteLine("Scanned PDF loaded successfully.");

گام 4: پردازش PDF اسکن‌شده با استفاده از موتور OCR

با بارگذاری PDF، آن را به موتور Aspose OCR برای شناسایی ارسال کنید.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // تنظیم زبان OCR (برای مثال، لاتین برای انگلیسی)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

گام 5: خروجی متن شناسایی‌شده یا ذخیره آن

پس از پردازش PDF توسط موتور OCR، می‌توانید یا متن شناسایی‌شده را مستقیماً خروجی دهید یا آن را در یک فایل ذخیره کنید.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// ذخیره نتیجه در یک فایل متنی
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

گام 6: آزمایش و بهینه‌سازی نتایج OCR

پس از استخراج متن، خروجی را برای دقت آزمایش کنید. در صورت لزوم، می‌توانید تنظیمات OCR را برای بهبود نتایج برای طرح‌های مختلف اسناد تغییر دهید.


مشکلات رایج و راه‌حل‌ها

1. دقت پایین OCR

  • راه‌حل: اطمینان حاصل کنید که کیفیت PDF اسکن‌شده بالا است. از اسکن‌های با وضوح بالا برای بهبود دقت شناسایی استفاده کنید.

2. فونت‌های غیرقابل پشتیبانی

  • راه‌حل: تنظیم زبان صحیح را در گزینه‌های OCR ارائه دهید تا شناسایی برای کاراکترهای غیرلاتین بهبود یابد.

3. عملکرد کند

  • راه‌حل: PDF را به قطعات یا صفحات کوچکتر تقسیم کنید تا پردازش سریع‌تر شود، به ویژه برای اسناد بزرگ.
 فارسی