چگونگی آماده سازی تصاویر اسکن شده برای OCR با Deskew با استفاده از .NET

چگونگی آماده سازی تصاویر اسکن شده برای OCR با Deskew با استفاده از .NET

OCR دقیق (به رسمیت شناختن شخصیت بصری) با تصاویر به طور کامل هماهنگ آغاز می شود. اسکن های چرخیده یا گرد و غبار، دقت OKR را کاهش می دهند، بنابراین تخلیه یک مرحله مهم پیش پردازش است. Aspose.Imaging برای .NET به شما اجازه می دهد تا اسناد / عکس ها را برای بهترین نتایج در هر ابزاری از OCC خارجی تهیه کنید.

مشکل دنیای واقعی

موتورهای OCR بهترین کار را بر روی تصاویر به خوبی هماهنگ انجام می دهند. اسکن های کروز باعث ایجاد کاراکترهای گمشده یا اشتباهات متن می شوند.

بررسی راه حل

استفاده از Aspose.Imaging برای .NET برای حذف تصاویر اسکن شده به طور خودکار. ذخیره آنها در یک فرمت بدون از دست دادن مانند PNG یا TIFF، آماده برای واردات به نرم افزار OCR خود را انتخاب (Asposa.OCR، Tesseract، و غیره).

پیش شرط

  • Visual Studio 2019 یا بالاتر
  • .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
  • Aspose.Imaging برای .NET از NuGet
  • یک سند یا تصویر اسکن شده (JPEG، PNG، TIFF، و غیره)
PM> Install-Package Aspose.Imaging

پیاده سازی گام به گام

مرحله اول: تصویر اسکن شده را حذف کنید

using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;

string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";

using (var image = (RasterImage)Image.Load(inputPath))
{
    // Deskew and use white background for optimal OCR results
    image.NormalizeAngle(false, Color.White);
    image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}

مرحله 2: انتقال تصاویر تخلیه شده به هر موتور OCR

  • از ابزار OCR مورد علاقه خود برای تشخیص متن از تصویر تخلیه شده استفاده کنید.
  • مثال : واردات scan_for_ocr_deskewed.png به خط لوله یا نرم افزار OCR شما (Aspose.OCR، Tesseract، ABBYY، و غیره).

مرحله سوم: بررسی و بازنگری

  • نتایج OCR را بررسی کنید.اگر دقت پایین باشد، تنظیم تنظیمات خروجی / پس زمینه یا کیفیت اسکن.
  • در نظر گرفتن پردازش بسته برای تمام اسکن های جدید برای حفظ جریان کار دیجیتالی سازی شما کارآمد است.

استفاده از موارد و برنامه ها

  • دیجیتالی کردن آرشیوها، ورودی ها، قراردادهای یا فرم های متن قابل جستجو
  • آماده سازی اسناد کسب و کار برای رعایت و حسابرسی
  • افزایش دقت در هر OCR یا خط لوله اتوماسیون اسناد

چالش ها و راه حل های مشترک

تصویر شکسته هنوز هم باعث اشتباهات OCR می شود: سعی کنید رنگ های مختلف پس زمینه، فیلتر کردن قبل برای سر و صدا یا اسکن های رزولوشن بالاتر را امتحان کنید.

فایلهای خروجی بیش از حد بزرگ هستند: در صورت نیاز شفافیت، از TIFF با فشرده سازی یا PNG استفاده کنید.

** ترکیبی از فرمت های تصویر:** تمام اسکن ها را قبل از OCR به فرم بدون زیان استاندارد کنید.

بهترین شیوه‌ها

  • همیشه از فرمت های تصویر بدون از دست دادن برای OCR استفاده کنید
  • حفظ تصاویر اصلی و پردازش شده برای مرجع
  • مستند کردن دسکتاپ و جریان کار دیجیتالی برای تیم

FAQ

**Q: آیا می توانم تمام تصاویر را در یک پوشه از بین ببرم؟**A: بله، این کد را در یک حلقه بر روی تمام فایل ها قرار دهید، همانطور که در نمونه های قبلی نشان داده شده است.

**Q: کدام رنگ پس زمینه برای OCR کار می کند؟**A: سفید برای متن امن تر است؛ از گرافیک شفاف استفاده کنید یا با سند شما مطابقت داشته باشید.

**Q: آیا پس از تخلیه فایل ها را فشرده کنید؟**A: از فشرده سازی بدون از دست دادن برای جلوگیری از آثار که دقت OCR را کاهش می دهد استفاده کنید.

نتیجه گیری

طراحی با Aspose.Imaging برای .NET یک ضرورت برای OCR قابل اعتماد، دیجیتالی سازی، و اتوماسیون کسب و کار است. نگه داشتن خط لوله خود را تمیز، سریع و دقیق! Aspose.Imaging برای .NET API .

 فارسی