چگونگی تبدیل فایل های اسکن شده به اسناد متنی قابل جستجو در .NET

PDF های اسکن شده اغلب برای کار با آنها چالش برانگیز هستند زیرا آنها اساسا فقط تصاویر متن هستند. تبدیل این تصاویر به اسناد متن قابل جستجو و ویرایش یک جهان از امکانات برای مدیریت اسناد و دسترسی به محتوا را باز می کند. با Aspose.OCR برای .NET، شما می توانید اسناد اسکن شده را به اسناد قابل جستجو تبدیل کنید در حالی که تصاویر اصلی را حفظ می کنید.

چرا PDF های اسکن شده را به اسناد متنی قابل جستجو تبدیل می کنیم؟

در دسترس بودن:- محتوای اسکن شده را قابل جستجو قرار دهید، به راحتی اطلاعات را بدون خواندن دستی از طریق اسناد پیدا کنید.
تغییرمسیر محتوا:- پس از تبدیل به متن، محتوا می تواند ویرایش، به روز رسانی و یا استفاده مجدد در فرمت های دیگر.
بهره وری:- صرفه جویی در زمان با اتوماسیون فرآیند تبدیل PDF های اسکن شده به اسناد متن کاملا قابل دسترس.

شرایط: تنظیم برای اسکن استخراج متن PDF

قبل از استخراج متن از PDF های اسکن شده، این مراحل را دنبال کنید تا اطمینان حاصل شود که همه چیز تنظیم شده است:

تولید Aspose.OCR برای .NET:- اضافه کردن Aspose.OCR به پروژه خود با استفاده از NuGet: dotnet add package Aspose.OCR
مجوز خود را دریافت کنید:- تنظیم مجوز اندازه گیری خود را با استفاده از SetMeteredKey() برای باز کردن تمام قابلیت های Aspose.OCR.
تصویب فایل های اسکن شده PDF:- اطمینان حاصل کنید که PDF های اسکن شده با کیفیت خوب برای دقت بهتر تشخیص هستند.

راهنمای گام به گام: تبدیل PDF های اسکن شده به متن قابل جستجو

مرحله اول: مجوز خود را تنظیم کنید

شروع با تنظیم مجوز Aspose.OCR خود را برای باز کردن تمام ویژگی ها.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

مرحله 2: PDF اسکن شده را به OCR Input Object بارگذاری کنید

پس از آن، فایل PDF اسکن شده را در OcrInput برای شروع فرآیند OCR بارگذاری کنید.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

مرحله 3: تنظیم موتور OCR برای تشخیص

موتور OCR را تنظیم کنید و تنظیمات تشخیصی مانند زبان و دقت را تنظیم کنید.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

مرحله 4: استخراج و خروجی متن شناخته شده

در حال حاضر، متن را از PDF اسکن شده با استفاده از موتور OCR استخراج کنید.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

مرحله 5: آزمایش PDF قابل جستجو

اطمینان حاصل کنید که متن استخراج شده قابل جستجو و ویرایش است با آزمایش خروجی در یک مرورگر PDF یا ویرایشگر.

مشکلات و اصلاحات مشترک

۱- دقت کم OCR

راه حل: اطمینان حاصل کنید که PDF اسکن شده با کیفیت بالا (حداقل 300 DPI) برای بهبود نتایج تشخیص است.

۲- فونت های پشتیبانی نشده

راه حل: اطمینان حاصل کنید که زبان صحیح در تنظیمات OCR برای تشخیص متن دقیق تنظیم شده است، به ویژه برای کاراکترهای غیر لاتین.

3- عملکرد آهسته برای PDF های بزرگ

راه حل: برای فایل های PDF بزرگ، اسناد را در قطعات یا صفحات کوچکتر پردازش کنید تا استفاده از حافظه را کاهش دهید و فرآیند را تسریع کنید.