چگونگی استخراج داده های ساختاری از جدول ها و فرم ها در تصاویر
استخراج داده ها از جدول های اسکن شده یا فرم های پر شده برای اتوماسیون کسب و کار، گزارش و انطباق ضروری است. ASPOSE.OCR جدول به متن برای .NET این فرآیند را سریع تر می کند، با دقت ساختار سلول و میدان را تشخیص می دهد و به فرمت های ویرایش پذیر صادر می شود.
مشکل دنیای واقعی
کسب و کارها اغلب صورتحساب ها، گزارش ها یا فرم ها را به عنوان تصاویر یا اسکن ها دریافت می کنند ورودی دستی داده های جدول یا زمینه های فرم آهسته، بدون خطا و گران در مقیاس است.
بررسی راه حل
با استفاده از جدول به متن برای .NET، شما می توانید داده های ساختار یافته – از جمله ردیف ها، ستون ها و ارزش های میدان – به طور مستقیم از تصاویر استخراج کنید.
پیش شرط
- Visual Studio 2019 یا بالاتر
- .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
- Aspose.OCR برای .NET از NuGet
- مهارت های C#
PM> Install-Package Aspose.OCR
پیاده سازی گام به گام
مرحله 1: نصب و تنظیم Aspose.OCR
using Aspose.OCR;
مرحله دوم: فرم ها و تصاویر را آماده کنید.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
مرحله 3: تنظیم تنظیمات شناسایی برای جدول ها / فرم ها
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE; // or DetectAreasMode.FORM
settings.Language = Language.English;
مرحله 4: داده های جدول یا فرم را استخراج کنید
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
مرحله پنجم: صادرات ساختار یافته
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx); // Spreadsheet
result.Save("output_table.json", SaveFormat.Json); // JSON
result.Save("output_table.txt", SaveFormat.Text); // Text
}
مرحله ششم: اشتباهات را حل کنید و نتایج را تایید کنید
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
مرحله 7: بهینه سازی برای جدول / فرم متغیر
- آزمایش بر روی نمونه ها با مرزهای مختلف، فونت ها یا مکان های میدان
- تنظیمات پیش پردازش برای بهترین تشخیص
مرحله هشتم: استخراج اتوماتیک
پردازش تمام تصاویر مربوطه در یک پوشه:
foreach (string file in Directory.GetFiles("./forms", "*.jpg"))
{
input.Add(file);
}
مرحله 9: نمونه کامل
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("scanned_invoice.png");
input.Add("filled_form.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.DetectAreasMode = DetectAreasMode.TABLE;
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
result.Save("output_table.xlsx", SaveFormat.Xlsx);
result.Save("output_table.json", SaveFormat.Json);
result.Save("output_table.txt", SaveFormat.Text);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
استفاده از موارد و برنامه ها
فاکتور و گزارش اتوماسیون
استخراج اطلاعات مالی برای حسابداری یا تجزیه و تحلیل.
فرم های تحقیق و ثبت نام
پاسخ های ساختار یافته برای سیستم های CRM، ERP یا BI.
انطباق و حسابرسی
اتوماتیک استخراج و تأیید داده ها از فرم ها یا جدول های ارائه شده.
چالش ها و راه حل های مشترک
چالش ۱: مرزهای جدول نامنظم یا تنظیمات
** راه حل:** از پیش پردازش و نمونه سازی برای بهبود تشخیص استفاده کنید.
چالش ۲: محتوای مخلوط (نص و جدول)
** راه حل: ** با AUTO اجرا کنید یا با توجه به نوع تصویر برای بهترین نتایج جدا شوید.
چالش 3: اشکال پیچیده با زمینه های متعدد
** راه حل: ** آزمایش و تشخیص دوگانه برای اشکال با ضخامت بالا.
بررسی عملکرد
- تشخیص میز CPU شدیدتر است؛ کارهای گروهی نظارت
- تصدیق خروجی برای جریان های کار حیاتی
- Batch Export برای ادغام با ابزارهای دیگر
بهترین شیوهها
- تایید داده های ساختاری بر روی نمونه ها قبل از مقیاس
- امنیت و آرشیو هر دو تصاویر منبع و خروجی استخراج شده
- به روز رسانی Aspose.OCR به طور منظم برای بهبود دقت
- تنظیمات تن برای طرح های جدید اسناد
سناریوهای پیشرفته
سناریو 1: صادرات به پایگاه داده یا ابزارهای BI
// Use JSON or Excel export for integration with data pipelines
سناریو 2: استخراج در زمان واقعی در اپلیکیشن های وب
// Integrate extraction logic into ASP.NET or workflow API
نتیجه گیری
Aspose.OCR جدول به متن برای .NET به شما اجازه می دهد تا استخراج داده های ساختار یافته از تصاویر و فرم ها را به طور خودکار، پشتیبانی از همه چیز از اتوماسیون کسب و کار به انطباق و تجزیه و تحلیل.
برای ویژگی های پیشرفته استخراج میز، به Aspose.OCR برای .NET API مرجع .