چگونگی استخراج داده های جدول از تصاویر با Aspose.OCR
با استفاده از Aspose.OCR Table to Text برای .NET، شما می توانید استخراج داده های جدول ساختار یافته از تصاویر را به طور خودکار – صرفه جویی در زمان، کاهش خطا، و امکان یکپارچه سازی بی سیم با پایگاه داده ها، اکسل، یا ابزار گزارش.
مشکل دنیای واقعی
کسب و کارها اغلب جدول ها را در صورتحساب ها، گزارش ها یا فرم ها به عنوان تصاویر یا اسکن ها دریافت می کنند. بازگرداندن دستی این داده ها در صفحات یا پلتفرم های تجزیه و تحلیل ناکارآمد و بدون خطا است، به ویژه برای حجم های بزرگ یا جدول های پیچیده.
بررسی راه حل
Aspose.OCR جدول به متن برای .NET به طور خودکار تشخیص جدول و استخراج داده ها از تصاویر، با دقت شناسایی ساختار سلولی و محتوا. این اجازه می دهد تا شما را به تبدیل جدول های اسکن شده و یا عکس به فرمت های ساختاری، قابل جستجو و ویرایش با کد حداقل.
پیش شرط
قبل از شروع، شما نیاز به:
- Visual Studio 2019 یا بالاتر
- .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
- Aspose.OCR برای .NET از NuGet
- آشنایی با C#
PM> Install-Package Aspose.OCR
پیاده سازی گام به گام
مرحله 1: نصب و تنظیم Aspose.OCR
بسته Aspose.OCR را اضافه کنید و فضاهای نامی مورد نیاز را شامل کنید:
using Aspose.OCR;
مرحله دوم: تدوین تصویر روی میز
یک یا چند تصویر جدول را به ورودی خود اضافه کنید.برای استخراج مجموعه، از فایل های چندگانه استفاده نمایید.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
مرحله 3: تنظیم تنظیمات تشخیص جدول
امکان حالت تشخیص میز برای اطمینان از اینکه ساختار به درستی تشخیص داده می شود.
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English; // Adjust if table contains non-English text
مرحله چهارم: فرآیند تشخیص میز را اجرا کنید
جدول ها را با تنظیمات تنظیم شده شناسایی کنید:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
مرحله 5: صادرات و استفاده از داده های جدول
ذخیره یا پردازش داده های جدول شناخته شده.شما می توانید به متن، اکسل، JSON، و یا فرمت های دیگر صادر کنید.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Raw table as text
result.Save("table.csv", SaveFormat.Csv); // Save as CSV
result.Save("table.xlsx", SaveFormat.Xlsx); // Save as Excel
}
مرحله ششم: اضافه کردن خطا
اضافه کردن مدیریت استثنایی برای ایجاد راه حل های قوی.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
مرحله 7: بهینه سازی برای جدول های پیچیده
- استفاده از اسکن ها / عکس های با رزولوشن بالا برای تشخیص دقیق ساختار
- آزمایش با طرح های مختلف میز ( سلول های مخلوط، سر چند خط، مرزها)
- تنظیمات شناسایی به عنوان مورد نیاز
// Example: Add all images from a folder
foreach (string file in Directory.GetFiles("./tables", "*.png"))
{
input.Add(file);
}
مرحله هشتم: نمونه کامل کار
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("table1.png");
input.Add("table2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("table.csv", SaveFormat.Csv);
result.Save("table.xlsx", SaveFormat.Xlsx);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
استفاده از موارد و برنامه ها
گزارش های مالی و فاکتورها
جدول های معاملاتی را از تصاویر به سیستم های اکسل یا پایگاه داده به طور خودکار استخراج کنید.
تحقیق و تحلیل
دیجیتالی کردن جدول ها از نشریات اسکن شده یا فرم های نظرسنجی برای تجزیه و تحلیل داده ها.
مهاجرت اتوماتیک داده ها
اسناد میراث یا سوابق کاغذی اسکن شده را به فرمت های ساختار یافته مدرن منتقل کنید.
چالش ها و راه حل های مشترک
چالش ۱: تصاویر خیره کننده یا پیچیده
** راه حل:** از تصاویر روشن تر یا آزمایش با پیش پردازش برای بهبود تشخیص ساختار استفاده کنید.
چالش ۲: طرح های غیر استاندارد
راه حل: تنظیمات را برای طرح های پیچیده یا جدول های بی حد و حصر تست و تنظیم کنید.
چالش سوم: تکه های بزرگ یا انواع تصویر مخلوط
** راه حل:** از پردازش بسته و اسکن دایرکتوری برای اتوماسیون استخراج از بسیاری از فایل ها استفاده کنید.
بررسی عملکرد
- استفاده از تصاویر روشن و با کیفیت بالا
- فرآیند Batch برای بهره وری
- استفاده از اشیاء OCR پس از استفاده
بهترین شیوهها
- همیشه قبل از پردازش بیشتر، داده های جدول صادر شده را تأیید کنید
- تصاویر پیش پردازش برای تشخیص ساختار بهینه
- امنیت و پشتیبان گیری اسکن های اصلی / تصاویر
- از فرمت صادرات مناسب برای جریان کار خود استفاده کنید (CSV، XLSX، JSON)
سناریوهای پیشرفته
سناریو ۱: استخراج مخلوط زبان
settings.Language = Language.Chinese;
سناریو ۲: ترکیبی از جدول و استخراج متن
settings.DetectAreasMode = DetectAreasMode.COMBINE;
نتیجه گیری
Aspose.OCR Table to Text for .NET تصاویر را به داده های ساختار یافته و قابل ویرایش تبدیل می کند – بدون نیاز به ورودی دستی.به سرعت گزارش مالی، تجزیه و تحلیل و آرشیو دیجیتال با استخراج دقیق و اتوماتیک جدول.
برای اطلاعات بیشتر و جزئیات فنی، به Aspose.OCR برای .NET API مرجع .