چگونه اطلاعات صورتحساب را از حساب های چند زبانه استخراج کنیم
اتوماسیون صورتحساب اغلب شامل ارائه دهندگان و یا اسناد در چندین زبان است – چالش هایی را برای استخراج میدان، رمزگذاری و ادغام جریان کار مطرح می کند. ASPOSE.OCR Invoice to Text for .NET به رسمیت شناختن حساب های چند زبانه برای کسب و کارهای جهانی می پردازد.
مشکل دنیای واقعی
پردازش دستی صورتحساب ها در چندین زبان، زمان و خطا است.استفاده اتوماتیک از داده ها اگر OCR برای هر زبان هدف و اسکریپت مشخص نشده باشد، شکست می خورد.
بررسی راه حل
Leverage Aspose.OCR زبان پشتیبانی برای استخراج داده ها از فرانسه، اسپانیایی، چینی، آلمانی یا سایر صورتحساب ها – امکان اتوماسیون مالی جهانی و انطباق.
پیش شرط
- Visual Studio 2019 یا بالاتر
- .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
- Aspose.OCR برای .NET از NuGet
- فاکتورها در زبان های مختلف
PM> Install-Package Aspose.OCR
پیاده سازی گام به گام
مرحله اول: جمع آوری فاکتورهای چند زبانه
string[] invoiceFiles = Directory.GetFiles("./invoices_multilingual", "*.pdf");
// Map file to language for each supplier or region
Dictionary<string, Language> invoiceLanguages = new Dictionary<string, Language>
{
{ "invoice1_fr.pdf", Language.French },
{ "invoice2_es.pdf", Language.Spanish },
{ "invoice3_cn.pdf", Language.Chinese },
};
مرحله 2: تنظیم و اجرا تشخیص برای هر زبان
InvoiceRecognitionSettings settings = new InvoiceRecognitionSettings();
AsposeOcr ocr = new AsposeOcr();
foreach (var kvp in invoiceLanguages)
{
settings.Language = kvp.Value;
OcrInput input = new OcrInput(InputType.PDF);
input.Add(kvp.Key);
var results = ocr.RecognizeInvoice(input, settings);
// Extract and process fields
}
مرحله 3: حذف فیلد های Unicode/Non-English به طور ایمن
- پشتیبانی از Unicode را پشتیبانی می کند
string fullText = results[0].RecognitionText;
// Use field parsing logic as in prior articles
مرحله 4: صادرات نتایج به CSV / Excel برای داده های چند زبانه
- استفاده از رمزگذاری UTF-8 برای پشتیبانی از تمام کاراکترها
using (var writer = new StreamWriter("invoice_multilingual.csv", false, Encoding.UTF8))
{
writer.WriteLine("File,Vendor,Date,Total,Language");
// Loop through results and write data
}
مرحله 5: ثبت نام کم اعتماد / مسائل پرچم برای بررسی
- نتایج OCR ممکن است نیاز به بررسی برای اسکریپت های غیر لاتین یا اسکن های ضعیف داشته باشد.
استفاده از موارد و برنامه ها
مالی جهانی و اتوماسیون ERP
استخراج داده های صورتحساب از تامین کنندگان جهانی بدون ورود دستی.
حسابرسی و رعایت بین المللی
حفظ سوابق دقیق برای حوزه های مختلف و گزارشگری.
تحلیل هزینه های چند زبانه
امکان گزارش و تجزیه و تحلیل در زبان ها و بازارهای مختلف
چالش ها و راه حل های مشترک
چالش اول: محتوای ناشناخته یا مخلوط
** راه حل:** فایل های پیش برچسب، یا استفاده از تشخیص زبان OCR به عنوان اولین عبور.
چالش 2: رمزگذاری و یا خطای Unicode
** راه حل:** همیشه پردازش و صادرات با پشتیبانی از UTF-8 یا Unicode.
چالش سوم: طرح های زبانی
** راه حل:** منطق استخراج و پارس میدان را با توجه به قالب یا منطقه تنظیم کنید.
بررسی عملکرد
- فرآیند با زبان برای بهترین دقت
- تصدیق خروجی در هر مجموعه زبان
بهترین شیوهها
- نقشه هر صورتحساب به زبان / نماد مورد انتظار خود
- استفاده از مجموعه های نمونه برای تنگ کردن منطق استخراج میدان
- خطای ثبت نام یا عدم قطعیت برای بررسی انسانی
- امنیت اطلاعات بین المللی برای حریم خصوصی
سناریوهای پیشرفته
سناریو 1: ادغام با ERP چند زبانه یا جریان کار
نتایج صادرات در فرمت / رمزگذاری برای واردات مستقیم ERP.
سناریو ۲: استفاده از تشخیص زبان برای پردازش پویا
از تشخیص زبان Aspose.OCR (در صورت وجود) برای اتوماسیون خط لوله شناسایی استفاده کنید.
نتیجه گیری
با استفاده از Aspose.OCR Invoice to Text برای .NET، شما می توانید پردازش صورتحساب را برای تامین کنندگان جهانی اتوماتیک کنید – با استخراج داده های چند زبانه با دقت بالا و ادغام جریان کار بی نظیر.
See Aspose.OCR برای .NET API مرجع برای زبان های پشتیبانی شده و نمونه های کد چند زبانه پیشرفته.