Як витягти дані з багатомовних рахунків
Автоматизація рахунків часто включає в себе постачальників або документів на кількох мовах — що ставить виклики для видобутку полів, кодування та інтеграції робочого потоку. Aspose.OCR Invoice to Text for .NET поширює багатомовне розпізнавання рахунку для глобальних компаній.
Реальні проблеми світу
Ручне обробка рахунків на декількох мовах займає час і виправдовує помилки.Автоматичне вилучення даних провалиться, якщо ОКР не підключається до кожного цільового мови та сценарію.
Огляд рішення
Leverage Aspose.OCR мовна підтримка для вилучення даних з французької, іспанської, китайських, німецьких або інших рахунків, що дозволяє глобальну фінансову автоматизацію та дотримання.
Передумови
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET від NuGet
- Фолклор рахунків на різних мовах
PM> Install-Package Aspose.OCR
Крок за кроком реалізація
Крок 1: Підготуйте багатомовний пакет рахунків
string[] invoiceFiles = Directory.GetFiles("./invoices_multilingual", "*.pdf");
// Map file to language for each supplier or region
Dictionary<string, Language> invoiceLanguages = new Dictionary<string, Language>
{
{ "invoice1_fr.pdf", Language.French },
{ "invoice2_es.pdf", Language.Spanish },
{ "invoice3_cn.pdf", Language.Chinese },
};
Крок 2: Налаштувати і запустити розпізнавання для кожного мови
InvoiceRecognitionSettings settings = new InvoiceRecognitionSettings();
AsposeOcr ocr = new AsposeOcr();
foreach (var kvp in invoiceLanguages)
{
settings.Language = kvp.Value;
OcrInput input = new OcrInput(InputType.PDF);
input.Add(kvp.Key);
var results = ocr.RecognizeInvoice(input, settings);
// Extract and process fields
}
Крок 3: Екстракт унікальних/неанглійських полів
- Забезпечення обробки стрічки підтримує Unicode
string fullText = results[0].RecognitionText;
// Use field parsing logic as in prior articles
Крок 4: Експорт результатів до CSV/Excel для багатомовних даних
- Використовуйте UTF-8 для кодування всіх персонажів
using (var writer = new StreamWriter("invoice_multilingual.csv", false, Encoding.UTF8))
{
writer.WriteLine("File,Vendor,Date,Total,Language");
// Loop through results and write data
}
Крок 5: Завантажити питання низького довіри / Флаг для перегляду
- Результати ОКР можуть потребувати перегляду для не-латинських скриптів або поганих сканів
Використання випадків та додатків
Глобальні фінанси та автоматизація ERP
Витяг рахункових даних від глобальних постачальників без ручного входу.
Міжнародний аудит та відповідність
Зберігати точні записи для різних юрисдикцій та доповіді.
Мултимовний аналіз витрат
Можливість доповіді та аналізу на різних мовах та ринках.
Спільні виклики та рішення
Виклик 1: Невідомий або змішаний вміст мови
Рішення: Файли попереднього етикетки, або використовуйте розпізнавання мови OCR як перший прохід.
Докладніше: Проблема 2: Еккод або помилки Unicode
Рішення: Завжди обробляти і експортувати з підтримкою UTF-8 або Unicode.
Виклик 3: Мова-специфічні розташування
Рішення: Використовуйте логіку видобутку та поля за шаблоном або регіоном.
Виконання розглядів
- Процес за мовою для кращої точності
- Визначити результати в кожному мовному наборі
Найкращі практики
- Карта кожного рахунку до його очікуваного мови / шаблону
- Використовуйте зразки для тонування логіки видобутку поля
- Реєстраційні помилки або невизначеність для людської перевірки
- Безпечні міжнародні дані для конфіденційності
Розширені сценарії
Сценарій 1: Інтеграція з багатомовним ERP або робочим потоком
Результати експорту в форматі / кодування для прямого введення ERP.
Сценарій 2: Використання вивчення мови для динамічного обробки
Використовуйте розпізнавання мови Aspose.OCR (якщо доступно) для автоматизації пізнавальної труби.
Заключення
За допомогою Aspose.OCR Invoice to Text для .NET, ви можете автоматизувати обробку рахунків для глобальних постачальників — витягуючи багатомовні дані з високою точністю і безперервною інтеграцією робочого потоку.
See Aspose.OCR для .NET API Референт для підтримуваних мов та передових багатомовних зразків коду.