چگونه برای استخراج جدول و داده های جدول از تصاویر با Aspose.OCR
استخراج جدول ها از تصاویر، فرم ها و یا گزارش های اسکن شده چالش برانگیز است – بازتاب دستی آهسته و بدون خطا است. ASPOSE.OCR جدول به متن برای .NET اتوماسیون استخراعات و ساختار داده های جدول از تصویر و عکس ها.
مشکل دنیای واقعی
گزارش های مالی، فرم های نظرسنجی و نتایج علمی اغلب در جدول ها یا تصاویر اسکن شده گیر افتاده اند. بازسازی دستی این داده ها ساعت ها و خطرات ایجاد اشتباهات را هدر می دهد.
بررسی راه حل
Aspose.OCR برای .NET می تواند به دقت تشخیص، استخراج و تبدیل جدول از تصاویر و یا فایل های اسکن شده به فرمت های قابل خواندن ماشین – کامل برای اکسل، گزارش، یا اتوماسیون جریان کار.
پیش شرط
- Visual Studio 2019 یا بالاتر
- .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
- Aspose.OCR برای .NET از NuGet
- آشنایی با C#
PM> Install-Package Aspose.OCR
پیاده سازی گام به گام
مرحله 1: نصب و تنظیم Aspose.OCR
using Aspose.OCR;
مرحله دوم: اسکن یا عکاسی تصاویر حاوی جدول
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
مرحله 3: تنظیم تنظیمات تشخیص جدول
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE; // Key for tables
مرحله چهارم: فرآیند استخراج میز را اجرا کنید
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
مرحله 5: داده های جدول صادرات
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx); // Excel output
result.Save("table_data.csv", SaveFormat.Csv); // CSV output
result.Save("table_data.txt", SaveFormat.Text); // Plain text output
}
مرحله 6: اضافه کردن مدیریت خطا و اعتباربخشی
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
مرحله 7: بهینه سازی برای جدول های پیچیده، چرخشی یا چند صفحه ای
- پیش پردازش تصاویر به deskew یا crop
- استفاده از اسکن ها یا عکس های با رزولوشن بالا
- برای PDF های چند صفحه ای، هر صفحه را به عنوان یک ورودی جداگانه اضافه کنید.
foreach (string file in Directory.GetFiles("./scans", "*.png"))
{
input.Add(file);
}
مرحله هشتم: نمونه کامل
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.jpg");
input.Add("report_page.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.TABLE;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("table_data.xlsx", SaveFormat.Xlsx);
result.Save("table_data.csv", SaveFormat.Csv);
result.Save("table_data.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
استفاده از موارد و برنامه ها
گزارش های مالی و علمی
جدول ها را از گزارش های مالی، نتایج آزمایشگاه یا اسناد تحقیقاتی برای تجزیه و تحلیل فوری در اکسل استخراج کنید.
بررسی و فرم پردازش
جدول ها را از فرم های اسکن شده، لیست های چک و یا سوابق سانسور دیجیتال کنید.
اتوماسیون جریان کار
داده های جدول ساختار یافته را به طور مستقیم به برنامه های کسب و کار، ابزارهای BI یا پایگاه های داده وارد کنید.
چالش ها و راه حل های مشترک
چالش اول: جدول های کم کیفیت یا پیچیده
** راه حل:** از تصاویر با رز بالا استفاده کنید و بر روی مجموعه های نمونه آزمایش کنید.
چالش دوم: میزهای چرخیده یا خمیده
** راه حل:** تصاویر را قبل از پردازش ذخیره کنید؛ از DetectAreasMode.TABLE استفاده کنید.
چالش سوم: گزارش های چند صفحه ای
** راه حل:** هر صفحه را به عنوان یک ورودی جداگانه برای پردازش بسته اضافه کنید.
بررسی عملکرد
- فرآیند Batch برای سرعت
- استفاده از اسکن های با کیفیت بالا / عکس ها
- در دسترس بودن اشیاء OCR پس از دویدن بزرگ
بهترین شیوهها
- تصدیق محصول قبل از ادغام
- تنظیمات تشخیص جدول به عنوان مورد نیاز
- پشتیبانی از داده های اصلی و دیجیتالی
- آزمایش با نمونه های واقعی قبل از راه اندازی
سناریوهای پیشرفته
مرحله اول: استخراج میز چند زبانه
settings.Language = Language.German;
سناریو 2: صادرات به JSON برای لوله های داده
foreach (RecognitionResult result in results)
{
result.Save("table_data.json", SaveFormat.Json);
}
نتیجه گیری
Aspose.OCR جدول به متن برای .NET تصاویر و اسکن ها را به داده های جدول قابل اجرا و ساختاری تبدیل می کند – آماده برای تجزیه و تحلیل، گزارش و اتوماسیون.
مشاهده بیشتر نمونه های کد شناسایی جدول در Aspose.OCR برای .NET API مرجع .