چگونه متن را از فایل های اسکن شده در .NET با استفاده از Aspose.OCR استخراج کنیم
PDF های اسکن شده اغلب برای کار با آنها چالش برانگیز هستند زیرا آنها اساسا فقط تصاویر متن هستند. تبدیل این تصاویر به اسناد متن قابل جستجو و ویرایش یک جهان از امکانات برای مدیریت اسناد و دسترسی به محتوا را باز می کند. با Aspose.OCR برای .NET، شما می توانید اسناد اسکن شده را به اسناد قابل جستجو تبدیل کنید در حالی که تصاویر اصلی را حفظ می کنید.
چرا OCR (به رسمیت شناختن شخصیت بصری) برای PDF های اسکن شده مهم است
*تولید اطلاعات تولید اطلاعات:- OCR به شما اجازه می دهد متن اسکن شده را به داده های قابل خواندن ماشین تبدیل کنید که می تواند ویرایش و فهرست شود.
قابلیت جستجو:- با تبدیل فایل های اسکن شده به اسناد قابل جستجو، شما می توانید اطلاعات مربوطه را بدون جستجوی دستی از طریق صفحات به سرعت پیدا کنید.
افزایش بهره وری:- صرفه جویی در زمان با اتوماسیون تبدیل اسناد اسکن شده به فرمت های ویرایش شده مانند Word یا Excel.
شرایط: تنظیم برای اسکن استخراج متن PDF
قبل از شروع استخراج متن از PDF های اسکن شده خود، اطمینان حاصل کنید که مراحل زیر به پایان رسیده است:
تولید Aspose.OCR برای .NET:- اضافه کردن Aspose.OCR به پروژه خود با استفاده از NuGet:
dotnet add package Aspose.OCR
برای دریافت مجوز اندازه گیری شده:- مجوز اندازه گیری خود را تنظیم کنید تا تمام ویژگی های کتابخانه Aspose.OCR را با استفاده از
SetMeteredKey()
.تولید فایل های اسکن شده خود را:- اطمینان حاصل کنید که فایل های اسکن شده شما با کیفیت بالا هستند. نتایج با کیفیت بهتر در OCR دقیق تر.
راهنمای گام به گام: استخراج متن از PDF های اسکن شده
مرحله اول: کتابخانه مورد نیاز را نصب کنید
با نصب Aspose.OCR برای .NET در پروژه خود شروع کنید.شما می توانید این کار را به طور مستقیم از NuGet انجام دهید.
dotnet add package Aspose.OCR
مرحله دوم: کلیدهای مجوز خود را تنظیم کنید
قبل از انجام این کار، مجوز Aspose.OCR خود را برای باز کردن تمام ویژگی ها تنظیم کنید.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
مرحله 3: PDF اسکن شده را به OCR Input Object بارگذاری کنید
شما نیاز به بارگذاری اسکن شده PDF در OcrInput
Aspose.OCR پشتیبانی از اسکن چند صفحه از یک PDF.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");
مرحله 4: پردازش فایل های اسکن شده با استفاده از موتور OCR
با PDF بارگذاری شده، آن را به موتور Aspose OCR برای تشخیص منتقل کنید.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Set OCR language (e.g., Latin for English)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
مرحله پنجم: متن شناسایی شده را خارج کنید یا آن را ذخیره کنید
هنگامی که موتور OCR فایل PDF را پردازش می کند، می توانید متن شناخته شده را به طور مستقیم خروجی دهید یا آن را به یک فایل ذخیره کنید.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
مرحله 6: تست و بهینه سازی نتایج OCR
پس از استخراج متن، خروجی را برای دقت تست کنید.در صورت لزوم، می توانید تنظیمات OCR را برای بهبود نتایج برای طرح های مختلف اسناد تایپ کنید.
مشکلات و اصلاحات مشترک
۱- دقت ضعیف OCR
- راه حل: اطمینان حاصل کنید که کیفیت PDF اسکن شده بالا است.استفاده از اسکن های با رزولوشن بالا برای بهبود دقت تشخیص.
۲- فونت های پشتیبانی نشده
- راه حل: ارائه تنظیمات زبان صحیح در گزینه های OCR برای افزایش شناخت برای کاراکترهای غیر لاتین.
3- عملکرد آهسته
- راه حل: PDF را به تکه های کوچکتر یا صفحات برای پردازش سریع تر، به ویژه برای اسناد بزرگ، تقسیم کنید.