Как извлечь данные счета из многоязычных счетов

Как извлечь данные счета из многоязычных счетов

Автоматизация счетов часто включает в себя поставщиков или документов на нескольких языках — ставят вызовы для экстракции поля, кодирования и интеграции рабочего потока. Aspose.OCR Invoice to Text for .NET упрощает многоязычное признание счета для глобальных предприятий.

Реальные мировые проблемы

Ручная обработка счетов на нескольких языках затрачивает время и ошибки.Автоматическое извлечение данных проваливается, если ОКР не уточняется для каждого целевого языка и скрипта.

Решение обзор

Leverage Aspose.OCR поддерживает языковую поддержку для вывода данных из французского, испанского и китайского языков, немецкого или иных счетов — позволяя глобальной финансовой автоматизации и соответствия.

Предупреждения

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
  • Фолклор счетов на разных языках
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Подготовка многоязычного счета

string[] invoiceFiles = Directory.GetFiles("./invoices_multilingual", "*.pdf");
// Map file to language for each supplier or region
Dictionary<string, Language> invoiceLanguages = new Dictionary<string, Language>
{
    { "invoice1_fr.pdf", Language.French },
    { "invoice2_es.pdf", Language.Spanish },
    { "invoice3_cn.pdf", Language.Chinese },
};

Шаг 2: Настройка и проведение распознавания для каждого языка

InvoiceRecognitionSettings settings = new InvoiceRecognitionSettings();
AsposeOcr ocr = new AsposeOcr();
foreach (var kvp in invoiceLanguages)
{
    settings.Language = kvp.Value;
    OcrInput input = new OcrInput(InputType.PDF);
    input.Add(kvp.Key);
    var results = ocr.RecognizeInvoice(input, settings);
    // Extract and process fields
}

Шаг 3: Экстракт уникальных/неанглийских полей безопасно

  • Безопасная ленточная обработка поддерживает Unicode
string fullText = results[0].RecognitionText;
// Use field parsing logic as in prior articles

Шаг 4: Экспорт результатов в CSV/Excel для многоязычных данных

  • Используйте кодирование UTF-8 для поддержки всех персонажей
using (var writer = new StreamWriter("invoice_multilingual.csv", false, Encoding.UTF8))
{
    writer.WriteLine("File,Vendor,Date,Total,Language");
    // Loop through results and write data
}

Шаг 5: Зарегистрировать низкое доверие / флаг вопросы для обзора

  • Результаты ОКР могут потребовать пересмотра для не-латинских скриптов или плохих сканирований

Используйте случаи и приложения

Глобальные финансы и автоматизация ERP

Экстрактируйте данные счета от мировых поставщиков без ручного ввода.

Международный аудит и соответствие

Сохранение точных записей для различных юрисдикций и докладов.

Анализ многоязычных расходов

Возможность отчетности и анализа на разных языках и рынках.

Общие вызовы и решения

Проблема 1: Неизвестный или смешанный язык

Решение: Файлы с предварительным обозначением, или используйте обнаружение языка OCR в качестве первого прохода.

Проблема 2: ошибки шифрования или Unicode

Решение: Всегда обработка и экспорт с поддержкой UTF-8 или Unicode.

Проблема 3: языко-специфические расположения

Решение: Сделайте логику экстракции и полевую пассинг по шаблону или региону.

Рассмотрим производительность

  • Процесс по языку для наилучшей точности
  • Валидировать выходы в каждом языковом наборе

Лучшие практики

  • Карта каждого счета на его ожидаемый язык / шаблон
  • Используйте наборы шаблонов для тонирования логики выделения поля
  • Запись ошибок или неопределенностей для человеческого обзора
  • Безопасные международные данные для конфиденциальности

Развитые сценарии

Сценарий 1: Интеграция с многоязычным ERP или рабочим потоком

Экспортные результаты в формате/кодировании для прямого введения ERP.

Сценарий 2: Использование знаний языка для динамической обработки

Используйте обнаружение языка Aspose.OCR (если имеется) для автоматизации цепочки распознавания.

Заключение

С помощью Aspose.OCR Invoice to Text для .NET вы можете автоматизировать обработку счетов для глобальных поставщиков — извлекая многоязычные данные с высокой точностью и беспроводной интеграцией рабочего потока.

See ASPOSE.OCR для .NET API для поддерживаемых языков и передовых многоязычных образцов кода.

 Русский