چگونگی تبدیل فایل های اسکن شده به اسناد متنی قابل جستجو در .NET
PDF های اسکن شده به طور معمول غیر قابل ویرایش، فایل های مبتنی بر تصویر هستند، که باعث می شود استخراج متن از آنها دشوار باشد. با این حال، با Aspose.OCR برای .NET، شما می توانید به سرعت این PDF های اسکن شده را به اسناد متن قابل ویرایش و جستجو تبدیل کنید که بازگرداندن داده ها و مدیریت اسناد را بسیار آسان تر می کند.
چرا باید PDF های اسکن شده را به متن قابل جستجو تبدیل کنید؟
توسعه در دسترس بودن:- PDF های اسکن شده را می توان به متن تبدیل کرد که قابل جستجو و ویرایش است و امکان دسترسی بهتر به محتوا را فراهم می کند.
سازمان داده ها:- پس از تبدیل، متن می تواند سازماندهی، دستکاری و استفاده مجدد در فرمت های مختلف مانند Word، Excel، و یا متن صاف.
تغییرمسیر محتوا:- Aspose.OCR اطمینان حاصل می کند که تصاویر اصلی و طرح در حالی که متن استخراج می شود حفظ می شود، به شما هر دو محتوا و زمینه می دهد.
شرایط: آماده شدن برای تبدیل اسکن شده به PDF
قبل از شروع فرآیند استخراج متن از PDF های اسکن شده، مطمئن شوید که:
تولید Aspose.OCR برای .NET:- نصب کتابخانه مورد نیاز با استفاده از NuGet با دستورالعمل:
dotnet add package Aspose.OCR
تنظیمات مجوز:- دریافت و تنظیم یک مجوز اندازه گیری شده با استفاده از
SetMeteredKey()
روش برای باز کردن تمام ویژگی هاتولید فایل های اسکن شده خود را:- اطمینان حاصل کنید که PDF های اسکن شده شما در کیفیت خوب (300 DPI یا بالاتر) برای بهترین نتایج OCR هستند.
راهنمای گام به گام برای تبدیل PDF های اسکن شده به متن
مرحله اول: مجوز خود را تنظیم کنید
با تنظیم مجوز Aspose.OCR خود شروع کنید تا دسترسی کامل به ویژگی ها را تضمین کنید.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
مرحله 2: PDF اسکن شده را به OCR Input Object بارگذاری کنید
فایل PDF اسکن شده را به موتور OCR برای تشخیص متن بارگذاری کنید.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
مرحله 3: تنظیم موتور OCR برای تشخیص
موتور OCR را برای بهینه سازی استخراج متن از PDF اسکن شده تنظیم کنید.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
مرحله 4: استخراج و ذخیره متن شناخته شده
PDF اسکن شده را برای استخراج متن و خروجی آن به یک فایل پردازش کنید.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
مرحله پنجم: متن شناسایی شده را امتحان کنید
پس از استخراج، دقت تشخیص متن را با بررسی فایل خروجی یا نمایش آن در کنسول بررسی کنید.
مشکلات و اصلاحات مشترک
۱- دقت ضعیف OCR
- راه حل: اطمینان حاصل کنید که کیفیت PDF اسکن شده بالا است (300 DPI یا بیشتر) برای دقت بهتر تشخیص.
2- تشخیص نامناسب زبان
- Solution: به وضوح تنظیمات زبان را در RecognitionSettings برای نتایج بهتر، به ویژه برای کاراکترهای غیر لاتین مشخص کنید.
3- عملکرد آهسته برای فایل های بزرگ
- راه حل: پردازش فایل های بزرگ در قطعات یا بهینه سازی استفاده از حافظه برای سرعت بخشیدن به OCR.