كيفية استخراج بيانات الفاتورة من الفواتير المتعددة اللغات
وتشمل أوتوماتيك الفواتير في كثير من الأحيان الموردين أو الوثائق باللغات المتعددة – مما يضع تحديات لاستخراج الحقول، والتشفير، وتكامل تدفق العمل.
مشكلة العالم الحقيقي
التعامل اليدوي مع الفواتير باللغات المتعددة هو استهلاك الوقت والخطأ.فشل استخراج البيانات التلقائي إذا لم يتم إدراج OCR لكل لغة الهدف والرسوم البيانية.
نظرة عامة على الحل
الدعم اللغوي لـ Leverage Aspose.OCR لاستخراج البيانات من الفواتير الفرنسية أو الإسبانية أو الصينية أو الألمانية أو غيرها - مما يتيح التلقين والامتثال المالي العالمي.
المتطلبات
- Visual Studio 2019 أو أحدث
- .NET 6.0 أو أعلى (أو .Net Framework 4.6.2+)
- Aspose.OCR لـ .NET من NuGet
- ورقة الفواتير باللغات المختلفة
PM> Install-Package Aspose.OCR
تنفيذ خطوة بخطوة
الخطوة 1: إعداد مجموعة الفواتير المتعددة اللغات
string[] invoiceFiles = Directory.GetFiles("./invoices_multilingual", "*.pdf");
// Map file to language for each supplier or region
Dictionary<string, Language> invoiceLanguages = new Dictionary<string, Language>
{
{ "invoice1_fr.pdf", Language.French },
{ "invoice2_es.pdf", Language.Spanish },
{ "invoice3_cn.pdf", Language.Chinese },
};
الخطوة 2: إعداد وتشغيل التعرف على كل لغة
InvoiceRecognitionSettings settings = new InvoiceRecognitionSettings();
AsposeOcr ocr = new AsposeOcr();
foreach (var kvp in invoiceLanguages)
{
settings.Language = kvp.Value;
OcrInput input = new OcrInput(InputType.PDF);
input.Add(kvp.Key);
var results = ocr.RecognizeInvoice(input, settings);
// Extract and process fields
}
الخطوة 3: استخراج مجالات Unicode / غير الإنجليزية بأمان
- أمان الحبل يدعم Unicode
string fullText = results[0].RecognitionText;
// Use field parsing logic as in prior articles
الخطوة 4: تصدير النتائج إلى CSV/Excel للبيانات المتعددة اللغات
- استخدم التشفير UTF-8 لدعم جميع الأحرف
using (var writer = new StreamWriter("invoice_multilingual.csv", false, Encoding.UTF8))
{
writer.WriteLine("File,Vendor,Date,Total,Language");
// Loop through results and write data
}
الخطوة 5: تسجيل أسئلة منخفضة الثقة/العلامة لمراجعة
- قد تحتاج نتائج OCR إلى مراجعة للكتابات غير اللاتينية أو الفحص السيئ
استخدام الحالات والتطبيقات
التمويل العالمي وتأمين ERP
استخراج بيانات الفاتورة من الموردين العالميين دون إدخال يدوي.
المراجعة الدولية والامتثال
الحفاظ على سجلات دقيقة لمختلف المجالس والإبلاغ.
تحليل النفقات المتعددة اللغات
إمكانية الإبلاغ والتحليل في مختلف اللغات والأسواق.
التحديات والحلول المشتركة
التحدي الأول: المحتوى اللغوي غير المعروف أو المختلط
الحل: ملفات العلامة المسبقة، أو استخدام اكتشاف اللغة OCR كمرحلة أولى.
التحدي 2: تشفير أو أخطاء Unicode
** الحل:** دائما معالجة وتصدير مع دعم UTF-8 أو Unicode.
التحدي الثالث: إعدادات لغة محددة
الحلول: تنسيق منطق الاستخراج وتقسيم الحقول حسب النموذج أو المنطقة.
اعتبارات الأداء
- معالجة حسب اللغة للحصول على أفضل دقة
- تأكيد النتائج في كل مجموعة لغة
أفضل الممارسات
- خريطة كل فاتورة إلى لغتها المتوقعة / النموذج
- استخدم مجموعات العينات لتنويع منطق استخراج الحقول
- أخطاء تسجيل أو عدم اليقين للمراجعة البشرية
- بيانات دولية آمنة للخصوصية
سيناريوهات متقدمة
السيناريو 1: التكامل مع ERP متعددة اللغات أو سير العمل
تصدير النتائج في تنسيق / ترميز لإدخال ERP المباشر.
السيناريو 2: استخدام الكشف عن اللغة لمعالجة ديناميكية
استخدم الكشف عن لغة Aspose.OCR (إذا كان متاحًا) لتلقائي خط أنابيب التعرف.
استنتاجات
باستخدام Aspose.OCR Invoice to Text for .NET ، يمكنك تلقائيًا معالجة الفواتير للموردين في جميع أنحاء العالم - باستخراج البيانات المتعددة اللغات بدقة عالية وتكامل تدفقات العمل غير المرغوب فيها.
See أرشيف الوسم : .NET API Reference لغات مدعومة وعينات رمز متعددة اللغات المتقدمة.