چگونه متن را از PDF های اسکن شده در .NET با استفاده از Aspose.OCR استخراج کنیم
Scanned PDFs معمولاً کار با آنها چالشبرانگیز است زیرا اساساً فقط تصاویری از متن هستند. تبدیل این تصاویر به اسناد متنی قابل جستجو و ویرایش، دنیایی از امکانات را برای مدیریت اسناد و دسترسی به محتوا باز میکند. با Aspose.OCR for .NET، میتوانید PDFهای اسکنشده را به اسناد کاملاً قابل جستجو تبدیل کنید در حالی که تصاویر اصلی را حفظ میکنید.
چرا OCR (تشخیص کاراکتر نوری) برای PDFهای اسکنشده مهم است
- استخراج داده:
- OCR به شما این امکان را میدهد که متنهای اسکنشده را به دادههای قابل خواندن توسط ماشین تبدیل کنید که میتوان آنها را ویرایش و فهرستبندی کرد.
- قابلیت جستجو:
- با تبدیل PDFهای اسکنشده به اسناد قابل جستجو، میتوانید به سرعت اطلاعات مرتبط را بدون جستجوی دستی در صفحات پیدا کنید.
- بهبود بهرهوری:
- با خودکارسازی تبدیل اسناد اسکنشده به فرمتهای قابل ویرایش مانند Word یا Excel زمان خود را صرفهجویی کنید.
پیشنیازها: آمادهسازی برای استخراج متن از PDFهای اسکنشده
قبل از شروع استخراج متن از PDFهای اسکنشده خود، اطمینان حاصل کنید که مراحل زیر کامل شده است:
- نصب Aspose.OCR for .NET:
- Aspose.OCR را به پروژه خود با استفاده از NuGet اضافه کنید:
dotnet add package Aspose.OCR
- Aspose.OCR را به پروژه خود با استفاده از NuGet اضافه کنید:
- دریافت مجوز متری:
- مجوز متری خود را تنظیم کنید تا تمام ویژگیهای کتابخانه Aspose.OCR را باز کنید با استفاده از
SetMeteredKey()
.
- مجوز متری خود را تنظیم کنید تا تمام ویژگیهای کتابخانه Aspose.OCR را باز کنید با استفاده از
- آمادهسازی PDFهای اسکنشده:
- مطمئن شوید که PDFهای اسکنشده شما با کیفیت بالا هستند. کیفیت بهتر منجر به دقت بیشتر OCR میشود.
راهنمای گام به گام: استخراج متن از PDFهای اسکنشده
گام 1: نصب کتابخانه مورد نیاز
با نصب Aspose.OCR for .NET در پروژه خود شروع کنید. میتوانید این کار را مستقیماً از NuGet انجام دهید.
dotnet add package Aspose.OCR
گام 2: تنظیم کلیدهای مجوز
قبل از ادامه، مجوز خود را برای Aspose.OCR تنظیم کنید تا تمام ویژگیها را باز کنید.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");
گام 3: بارگذاری PDF اسکنشده به شیء ورودی OCR
شما باید PDF اسکنشده را به شیء OcrInput
بارگذاری کنید. Aspose.OCR از اسکن چندین صفحه PDF پشتیبانی میکند.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // پردازش 3 صفحه اول PDF
Console.WriteLine("Scanned PDF loaded successfully.");
گام 4: پردازش PDF اسکنشده با استفاده از موتور OCR
با بارگذاری PDF، آن را به موتور Aspose OCR برای شناسایی ارسال کنید.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // تنظیم زبان OCR (برای مثال، لاتین برای انگلیسی)
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");
گام 5: خروجی متن شناساییشده یا ذخیره آن
پس از پردازش PDF توسط موتور OCR، میتوانید یا متن شناساییشده را مستقیماً خروجی دهید یا آن را در یک فایل ذخیره کنید.
string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");
// ذخیره نتیجه در یک فایل متنی
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");
گام 6: آزمایش و بهینهسازی نتایج OCR
پس از استخراج متن، خروجی را برای دقت آزمایش کنید. در صورت لزوم، میتوانید تنظیمات OCR را برای بهبود نتایج برای طرحهای مختلف اسناد تغییر دهید.
مشکلات رایج و راهحلها
1. دقت پایین OCR
- راهحل: اطمینان حاصل کنید که کیفیت PDF اسکنشده بالا است. از اسکنهای با وضوح بالا برای بهبود دقت شناسایی استفاده کنید.
2. فونتهای غیرقابل پشتیبانی
- راهحل: تنظیم زبان صحیح را در گزینههای OCR ارائه دهید تا شناسایی برای کاراکترهای غیرلاتین بهبود یابد.
3. عملکرد کند
- راهحل: PDF را به قطعات یا صفحات کوچکتر تقسیم کنید تا پردازش سریعتر شود، به ویژه برای اسناد بزرگ.