چگونه کتاب ها و اسناد چند ستون را با Aspose.OCR دیجیتالی کنیم
اسکن و یا عکاسی از کتاب ها و مجلات اغلب منجر به تصاویر پیچیده و چند ستون می شود – چالش برای استاندارد OCR. Aspose.OCR برای .NET تنظیمات پیشرفته را برای به طور قابل اعتماد استخراج متن ساختار یافته، سفارش ستون، ایده آل برای کتابخانه ها، تحقیق و انتشار فراهم می کند.
مشکل دنیای واقعی
کتاب ها، روزنامه ها و مجلات اغلب به عنوان تصاویر اسکن شده با ستونها، یادداشت های پا و توضیحات ذخیره می شوند استخراج قابل خواندن، متن ساختار شده به صورت دستی آهسته، بدون خطا و گران برای کتابخانه ها یا آرشیوها است.
بررسی راه حل
Aspose.OCR برای .NET مدیریت چند ستون و طرح های پیچیده، حفظ ترتیب خواندن و اجازه می دهد تا شما به اتوماتیک دیجیتالی سازی جمعی از کتاب ها و مجلات، صرفه جویی در زمان و بهبود دقت داده ها برای محققان و ناشران.
پیش شرط
اطمینان حاصل کنید که:
- Visual Studio 2019 یا بالاتر
- .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
- Aspose.OCR برای .NET از NuGet
- مهارت های C#
PM> Install-Package Aspose.OCR
پیاده سازی گام به گام
مرحله 1: نصب و تنظیم Aspose.OCR
using Aspose.OCR;
مرحله 2: اسکن و یا عکاسی از صفحات کتاب / مجله خود را
اضافه کردن تمام تصاویر صفحه اسکن شده به ورودی خود را برای تشخیص بسته.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
مرحله 3: تنظیم تنظیمات تشخیص چند ستون
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // Use DOCUMENT or AUTO for multi-column layouts
مرحله چهارم: استخراج متن به ترتیب ساختار یافته
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
مرحله 5: صادرات و یا ذخیره متن دیجیتال
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text); // Save as text
result.Save("book_page.docx", SaveFormat.Docx); // Save as Word doc
}
مرحله 6: اضافه کردن مدیریت خطا و چک های کیفیت
try
{
// OCR and export code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
مرحله 7: بهینه سازی برای کتاب های جمعی یا نادر
- Batch پردازش تمام صفحات کتاب در پوشه ها
- استفاده از اسکن های با کیفیت بالا برای کتاب های نادر یا قدیمی
- یک صفحه نمونه را قبل از اجرای کل مجموعه تایید کنید.
foreach (string file in Directory.GetFiles("./books", "*.jpg"))
{
input.Add(file);
}
مرحله هشتم: نمونه کامل
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("book_page1.png");
input.Add("book_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("book_page.txt", SaveFormat.Text);
result.Save("book_page.docx", SaveFormat.Docx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
استفاده از موارد و برنامه ها
کتابخانه ها و بشریت دیجیتال
امکان وام دیجیتال، جستجو و تجزیه و تحلیل کتاب های نادر و روزنامه های تاریخی
انتشارات علمی و تحقیقاتی
به راحتی مجلات، کنفرانس ها و یا کتاب های متنی را برای دسترسی الکترونیکی دیجیتالی کنید.
طرح های چند زبانه و پیچیده
محتوا را از مجلات با ستون های زبان خارجی، صفحات یا یادداشت ها استخراج کنید.
چالش ها و راه حل های مشترک
چالش اول: بدون ستون ها یا توضیحات
** راه حل:** از اسکن های با کیفیت بالا استفاده کنید و حالت های DOCUMENT/AUTO را برای بهترین سفارش خواندن تست کنید.
چالش 2: کیفیت OCR برای کتاب های قدیمی یا آسیب دیده
** راه حل:** اسکن ها را بهبود می بخشد و نتایج را قبل از پردازش جمعی تایید می کند.
چالش سوم: دیجیتالی شدن در مقیاس بزرگ
** راه حل:** جریان های کار اتوماتیک بسته بندی و استفاده از مدیریت خطا برای عملیات در مقیاس بزرگ.
بررسی عملکرد
- استفاده از اسکن های منبع خوب، به ویژه برای کتاب های نادر یا شکننده
- فرآیند Batch برای مقیاس
- ذخیره سازی خروجی دیجیتال در فرمت های انعطاف پذیر (نص، Word، PDF)
بهترین شیوهها
- تصدیق خروجی در برابر صفحات اصلی برای دقت
- تنظیم صفحات کتاب با حجم و فصل برای بازگرداندن آسان
- پشتیبان هر دو اسکن و متن دیجیتالی
- به روز رسانی موتور OCR برای آخرین بهبود ها
سناریوهای پیشرفته
فصل اول: دیجیتالی سازی مجلات چند زبانه
settings.Language = Language.German;
سناریو 2: صادرات به PDF برای خوانندگان کتاب الکترونیکی
foreach (RecognitionResult result in results)
{
result.Save("book_page.pdf", SaveFormat.Pdf);
}
نتیجه گیری
Aspose.OCR برای .NET سریع ترین راه برای ورود کتاب ها و نشریات پیچیده به عصر دیجیتال، آماده برای جستجو، تجزیه و تحلیل و به اشتراک گذاری است.
نگاهی به نمونه های بیشتر و راهنمایی های ادغام در Aspose.OCR برای .NET API مرجع .