چگونه کتاب ها و اسناد چند ستون را با Aspose.OCR دیجیتالی کنیم

اسکن و یا عکاسی از کتاب ها و مجلات اغلب منجر به تصاویر پیچیده و چند ستون می شود – چالش برای استاندارد OCR. Aspose.OCR برای .NET تنظیمات پیشرفته را برای به طور قابل اعتماد استخراج متن ساختار یافته، سفارش ستون، ایده آل برای کتابخانه ها، تحقیق و انتشار فراهم می کند.

مشکل دنیای واقعی

کتاب ها، روزنامه ها و مجلات اغلب به عنوان تصاویر اسکن شده با ستونها، یادداشت های پا و توضیحات ذخیره می شوند استخراج قابل خواندن، متن ساختار شده به صورت دستی آهسته، بدون خطا و گران برای کتابخانه ها یا آرشیوها است.

بررسی راه حل

Aspose.OCR برای .NET مدیریت چند ستون و طرح های پیچیده، حفظ ترتیب خواندن و اجازه می دهد تا شما به اتوماتیک دیجیتالی سازی جمعی از کتاب ها و مجلات، صرفه جویی در زمان و بهبود دقت داده ها برای محققان و ناشران.

پیش شرط

اطمینان حاصل کنید که:

Visual Studio 2019 یا بالاتر
.NET 6.0 یا بالاتر (یا .NET Framework 4.6.2+)
Aspose.OCR برای .NET از NuGet
مهارت های C

PM> Install-Package Aspose.OCR

پیاده سازی گام به گام

مرحله 1: نصب و تنظیم Aspose.OCR

using Aspose.OCR;

مرحله 2: اسکن و یا عکاسی از صفحات کتاب / مجله خود را

اضافه کردن تمام تصاویر صفحه اسکن شده به ورودی خود را برای تشخیص بسته.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");

مرحله 3: تنظیم تنظیمات تشخیص چند ستون

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts

مرحله چهارم: استخراج متن به ترتیب ساختار یافته

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

مرحله 5: صادرات و یا ذخیره متن دیجیتال

foreach (RecognitionResult result in results)
{
    result.Save("book_page.txt", SaveFormat.Text); // Save as text
    result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}

مرحله 6: اضافه کردن مدیریت خطا و چک های کیفیت

try
{
    // OCR and export code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

مرحله 7: بهینه سازی برای کتاب های جمعی یا نادر

Batch پردازش تمام صفحات کتاب در پوشه ها
استفاده از اسکن های با کیفیت بالا برای کتاب های نادر یا قدیمی
یک صفحه نمونه را قبل از اجرای کل مجموعه تایید کنید

foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
    input.Add(file);
}

مرحله هشتم: نمونه کامل

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("book_page1.png");
            input.Add("book_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                result.Save("book_page.txt", SaveFormat.Text);
                result.Save("book_page.docx", SaveFormat.Docx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استفاده از موارد و برنامه ها

کتابخانه ها و بشریت دیجیتال

امکان وام دیجیتال، جستجو و تجزیه و تحلیل کتاب های نادر و روزنامه های تاریخی.

انتشارات علمی و تحقیقاتی

به راحتی مجلات، کنفرانس ها و یا کتاب های متنی را برای دسترسی الکترونیکی دیجیتالی کنید.

طرح های چند زبانه و پیچیده

محتوا را از مجلات با ستون های زبان خارجی، صفحات یا یادداشت ها استخراج کنید.

چالش ها و راه حل های مشترک

چالش اول: بدون ستون ها یا توضیحات

راه حل: از اسکن های با کیفیت بالا استفاده کنید و حالت های DOCUMENT/AUTO را برای بهترین سفارش خواندن تست کنید.

چالش 2: کیفیت OCR برای کتاب های قدیمی یا آسیب دیده

راه حل: اسکن ها را بهبود می بخشد و نتایج را قبل از پردازش جمعی تایید می کند.

چالش سوم: دیجیتالی شدن در مقیاس بزرگ

راه حل: جریان های کار اتوماتیک بسته بندی و استفاده از مدیریت خطا برای عملیات در مقیاس بزرگ.

بررسی عملکرد

استفاده از اسکن های منبع خوب، به ویژه برای کتاب های نادر یا شکننده
فرآیند Batch برای مقیاس
ذخیره سازی خروجی دیجیتال در فرمت های انعطاف پذیر (نص، Word، PDF)

بهترین شیوه‌ها

تصدیق خروجی در برابر صفحات اصلی برای دقت
تنظیم صفحات کتاب با حجم و فصل برای بازگرداندن آسان
پشتیبان هر دو اسکن و متن دیجیتالی
به روز رسانی موتور OCR برای آخرین بهبود ها

سناریوهای پیشرفته

فصل اول: دیجیتالی سازی مجلات چند زبانه

settings.Language = Language.German;

سناریو 2: صادرات به PDF برای خوانندگان کتاب الکترونیکی

foreach (RecognitionResult result in results)
{
    result.Save("book_page.pdf", SaveFormat.Pdf);
}

نتیجه گیری

Aspose.OCR برای .NET سریع ترین راه برای ورود کتاب ها و نشریات پیچیده به عصر دیجیتال، آماده برای جستجو، تجزیه و تحلیل و به اشتراک گذاری است.

نگاهی به نمونه های بیشتر و راهنمایی های ادغام در Aspose.OCR برای .NET API مرجع .