Как извлечь данные счета из многоязычных счетов
Автоматизация счетов часто включает в себя поставщиков или документов на нескольких языках — ставят вызовы для экстракции поля, кодирования и интеграции рабочего потока. Aspose.OCR Invoice to Text for .NET упрощает многоязычное признание счета для глобальных предприятий.
Реальные мировые проблемы
Ручная обработка счетов на нескольких языках затрачивает время и ошибки.Автоматическое извлечение данных проваливается, если ОКР не уточняется для каждого целевого языка и скрипта.
Решение обзор
Leverage Aspose.OCR поддерживает языковую поддержку для вывода данных из французского, испанского и китайского языков, немецкого или иных счетов — позволяя глобальной финансовой автоматизации и соответствия.
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- Фолклор счетов на разных языках
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Подготовка многоязычного счета
string[] invoiceFiles = Directory.GetFiles("./invoices_multilingual", "*.pdf");
// Map file to language for each supplier or region
Dictionary<string, Language> invoiceLanguages = new Dictionary<string, Language>
{
{ "invoice1_fr.pdf", Language.French },
{ "invoice2_es.pdf", Language.Spanish },
{ "invoice3_cn.pdf", Language.Chinese },
};
Шаг 2: Настройка и проведение распознавания для каждого языка
InvoiceRecognitionSettings settings = new InvoiceRecognitionSettings();
AsposeOcr ocr = new AsposeOcr();
foreach (var kvp in invoiceLanguages)
{
settings.Language = kvp.Value;
OcrInput input = new OcrInput(InputType.PDF);
input.Add(kvp.Key);
var results = ocr.RecognizeInvoice(input, settings);
// Extract and process fields
}
Шаг 3: Экстракт уникальных/неанглийских полей безопасно
- Безопасная ленточная обработка поддерживает Unicode
string fullText = results[0].RecognitionText;
// Use field parsing logic as in prior articles
Шаг 4: Экспорт результатов в CSV/Excel для многоязычных данных
- Используйте кодирование UTF-8 для поддержки всех персонажей
using (var writer = new StreamWriter("invoice_multilingual.csv", false, Encoding.UTF8))
{
writer.WriteLine("File,Vendor,Date,Total,Language");
// Loop through results and write data
}
Шаг 5: Зарегистрировать низкое доверие / флаг вопросы для обзора
- Результаты ОКР могут потребовать пересмотра для не-латинских скриптов или плохих сканирований
Используйте случаи и приложения
Глобальные финансы и автоматизация ERP
Экстрактируйте данные счета от мировых поставщиков без ручного ввода.
Международный аудит и соответствие
Сохранение точных записей для различных юрисдикций и докладов.
Анализ многоязычных расходов
Возможность отчетности и анализа на разных языках и рынках.
Общие вызовы и решения
Проблема 1: Неизвестный или смешанный язык
Решение: Файлы с предварительным обозначением, или используйте обнаружение языка OCR в качестве первого прохода.
Проблема 2: ошибки шифрования или Unicode
Решение: Всегда обработка и экспорт с поддержкой UTF-8 или Unicode.
Проблема 3: языко-специфические расположения
Решение: Сделайте логику экстракции и полевую пассинг по шаблону или региону.
Рассмотрим производительность
- Процесс по языку для наилучшей точности
- Валидировать выходы в каждом языковом наборе
Лучшие практики
- Карта каждого счета на его ожидаемый язык / шаблон
- Используйте наборы шаблонов для тонирования логики выделения поля
- Запись ошибок или неопределенностей для человеческого обзора
- Безопасные международные данные для конфиденциальности
Развитые сценарии
Сценарий 1: Интеграция с многоязычным ERP или рабочим потоком
Экспортные результаты в формате/кодировании для прямого введения ERP.
Сценарий 2: Использование знаний языка для динамической обработки
Используйте обнаружение языка Aspose.OCR (если имеется) для автоматизации цепочки распознавания.
Заключение
С помощью Aspose.OCR Invoice to Text для .NET вы можете автоматизировать обработку счетов для глобальных поставщиков — извлекая многоязычные данные с высокой точностью и беспроводной интеграцией рабочего потока.
See ASPOSE.OCR для .NET API для поддерживаемых языков и передовых многоязычных образцов кода.