چگونه کتاب ها و اسناد چند ستون را با Aspose.OCR دیجیتالی کنیم

چگونه کتاب ها و اسناد چند ستون را با Aspose.OCR دیجیتالی کنیم

اسکن و یا عکاسی از کتاب ها و مجلات اغلب منجر به تصاویر پیچیده و چند ستون می شود – چالش برای استاندارد OCR. Aspose.OCR برای .NET تنظیمات پیشرفته را برای به طور قابل اعتماد استخراج متن ساختار یافته، سفارش ستون، ایده آل برای کتابخانه ها، تحقیق و انتشار فراهم می کند.

مشکل دنیای واقعی

کتاب ها، روزنامه ها و مجلات اغلب به عنوان تصاویر اسکن شده با ستونها، یادداشت های پا و توضیحات ذخیره می شوند استخراج قابل خواندن، متن ساختار شده به صورت دستی آهسته، بدون خطا و گران برای کتابخانه ها یا آرشیوها است.

بررسی راه حل

Aspose.OCR برای .NET مدیریت چند ستون و طرح های پیچیده، حفظ ترتیب خواندن و اجازه می دهد تا شما به اتوماتیک دیجیتالی سازی جمعی از کتاب ها و مجلات، صرفه جویی در زمان و بهبود دقت داده ها برای محققان و ناشران.

پیش شرط

اطمینان حاصل کنید که:

  • Visual Studio 2019 یا بالاتر
  • .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
  • Aspose.OCR برای .NET از NuGet
  • مهارت های C#
PM> Install-Package Aspose.OCR

پیاده سازی گام به گام

مرحله 1: نصب و تنظیم Aspose.OCR

using Aspose.OCR;

مرحله 2: اسکن و یا عکاسی از صفحات کتاب / مجله خود را

اضافه کردن تمام تصاویر صفحه اسکن شده به ورودی خود را برای تشخیص بسته.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

مرحله 3: تنظیم تنظیمات تشخیص چند ستون

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

مرحله چهارم: استخراج متن به ترتیب ساختار یافته

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

مرحله 5: صادرات و یا ذخیره متن دیجیتال

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

مرحله 6: اضافه کردن مدیریت خطا و چک های کیفیت

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

مرحله 7: بهینه سازی برای کتاب های جمعی یا نادر

  • Batch پردازش تمام صفحات کتاب در پوشه ها
  • استفاده از اسکن های با کیفیت بالا برای کتاب های نادر یا قدیمی
  • یک صفحه نمونه را قبل از اجرای کل مجموعه تایید کنید.
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

مرحله هشتم: نمونه کامل

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استفاده از موارد و برنامه ها

کتابخانه ها و بشریت دیجیتال

امکان وام دیجیتال، جستجو و تجزیه و تحلیل کتاب های نادر و روزنامه های تاریخی

انتشارات علمی و تحقیقاتی

به راحتی مجلات، کنفرانس ها و یا کتاب های متنی را برای دسترسی الکترونیکی دیجیتالی کنید.

طرح های چند زبانه و پیچیده

محتوا را از مجلات با ستون های زبان خارجی، صفحات یا یادداشت ها استخراج کنید.

چالش ها و راه حل های مشترک

چالش اول: بدون ستون ها یا توضیحات

** راه حل:** از اسکن های با کیفیت بالا استفاده کنید و حالت های DOCUMENT/AUTO را برای بهترین سفارش خواندن تست کنید.

چالش 2: کیفیت OCR برای کتاب های قدیمی یا آسیب دیده

** راه حل:** اسکن ها را بهبود می بخشد و نتایج را قبل از پردازش جمعی تایید می کند.

چالش سوم: دیجیتالی شدن در مقیاس بزرگ

** راه حل:** جریان های کار اتوماتیک بسته بندی و استفاده از مدیریت خطا برای عملیات در مقیاس بزرگ.

بررسی عملکرد

  • استفاده از اسکن های منبع خوب، به ویژه برای کتاب های نادر یا شکننده
  • فرآیند Batch برای مقیاس
  • ذخیره سازی خروجی دیجیتال در فرمت های انعطاف پذیر (نص، Word، PDF)

بهترین شیوه‌ها

  • تصدیق خروجی در برابر صفحات اصلی برای دقت
  • تنظیم صفحات کتاب با حجم و فصل برای بازگرداندن آسان
  • پشتیبان هر دو اسکن و متن دیجیتالی
  • به روز رسانی موتور OCR برای آخرین بهبود ها

سناریوهای پیشرفته

فصل اول: دیجیتالی سازی مجلات چند زبانه

settings.Language = Language.German;

سناریو 2: صادرات به PDF برای خوانندگان کتاب الکترونیکی

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

نتیجه گیری

Aspose.OCR برای .NET سریع ترین راه برای ورود کتاب ها و نشریات پیچیده به عصر دیجیتال، آماده برای جستجو، تجزیه و تحلیل و به اشتراک گذاری است.

نگاهی به نمونه های بیشتر و راهنمایی های ادغام در Aspose.OCR برای .NET API مرجع .

 فارسی