چگونه فایلهای PDF اسکن شده را به اسناد متنی قابل جستجو در .NET تبدیل کنیم
اسناد PDF اسکن شده معمولاً فایلهای غیرقابل ویرایش و مبتنی بر تصویر هستند که استخراج متن از آنها را دشوار میکند. با این حال، با Aspose.OCR برای .NET، میتوانید به سرعت این PDFهای اسکن شده را به اسناد متنی قابل ویرایش و جستجو تبدیل کنید که بازیابی دادهها و مدیریت اسناد را بسیار آسانتر میکند.
چرا باید PDFهای اسکن شده را به متن قابل جستجو تبدیل کنید؟
- دسترسپذیری بهبود یافته:
- PDFهای اسکن شده میتوانند به متنی تبدیل شوند که قابل جستجو و ویرایش باشد و دسترسی به محتوا را بهتر کند.
- سازماندهی دادهها:
- پس از تبدیل، متن میتواند سازماندهی، دستکاری و در فرمتهای مختلف مانند Word، Excel یا متن ساده دوباره استفاده شود.
- حفظ محتوا:
- Aspose.OCR اطمینان میدهد که تصاویر و طرحبندی اصلی در حین استخراج متن حفظ میشود و به شما هم محتوا و هم زمینه را میدهد.
پیشنیازها: آمادهسازی برای تبدیل PDF اسکن شده
قبل از شروع فرآیند استخراج متن از PDFهای اسکن شده، مطمئن شوید که موارد زیر رعایت شده است:
- نصب Aspose.OCR برای .NET:
- کتابخانه لازم را با استفاده از NuGet با دستور زیر نصب کنید:
dotnet add package Aspose.OCR
- کتابخانه لازم را با استفاده از NuGet با دستور زیر نصب کنید:
- پیکربندی مجوز:
- یک مجوز متری به دست آورید و با استفاده از متد
SetMeteredKey()
آن را پیکربندی کنید تا تمام ویژگیها را فعال کنید.
- یک مجوز متری به دست آورید و با استفاده از متد
- آمادهسازی PDFهای اسکن شده:
- اطمینان حاصل کنید که PDFهای اسکن شده شما از کیفیت خوبی (300 DPI یا بالاتر) برخوردارند تا بهترین نتایج OCR را به دست آورید.
راهنمای گام به گام برای تبدیل PDFهای اسکن شده به متن
گام 1: پیکربندی مجوز خود
با پیکربندی مجوز Aspose.OCR خود شروع کنید تا به تمام ویژگیها دسترسی کامل داشته باشید.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
گام 2: بارگذاری PDF اسکن شده به شیء ورودی OCR
فایل PDF اسکن شده را به موتور OCR برای شناسایی متن بارگذاری کنید.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
گام 3: پیکربندی موتور OCR برای شناسایی
موتور OCR را برای بهینهسازی استخراج متن از PDF اسکن شده راهاندازی کنید.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
گام 4: استخراج و ذخیره متن شناسایی شده
PDF اسکن شده را پردازش کنید تا متن را استخراج کرده و آن را به یک فایل خروجی دهید.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
گام 5: تست متن شناسایی شده
پس از استخراج، دقت شناسایی متن را با بررسی فایل خروجی یا نمایش آن در کنسول تأیید کنید.
مشکلات رایج و راهحلها
1. دقت پایین OCR
- راهحل: اطمینان حاصل کنید که کیفیت PDF اسکن شده بالا (300 DPI یا بیشتر) باشد تا دقت شناسایی بهتری داشته باشید.
2. شناسایی زبان نادرست
- راهحل: برای نتایج بهتر، بهویژه برای کاراکترهای غیرلاتین، بهصراحت تنظیم زبان را در RecognitionSettings مشخص کنید.
3. عملکرد کند برای فایلهای بزرگ
- راهحل: PDFهای بزرگ را به صورت تکهای پردازش کنید یا استفاده از حافظه را بهینهسازی کنید تا فرآیند OCR سریعتر شود.