多言語会計から請求書データを抽出する方法
多言語会計から請求書データを抽出する方法
請求書の自動化には、多言語のサプライヤーや文書が含まれており、フィールド抽出、暗号化、ワークフローの統合に課題を抱えています。
現実世界問題
複数の言語で手動で請求書を処理することは、時間とエラーに耐えられます 自動データ抽出が失敗する場合、OCRはそれぞれのターゲット語とスクリプトに適用されていません。
ソリューション概要
Leverage Aspose.OCRの言語サポートは、フランス語、スペイン、中国、ドイツ、またはその他の請求書からデータを抽出し、グローバルな金融の自動化と遵守を可能にします。
原則
- Visual Studio 2019 以降
- .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET から NuGet
- 異なる言語で請求書のフォルダー
PM> Install-Package Aspose.OCR
ステップ・ステップ・実施
ステップ1:多言語請求書バッチの準備
string[] invoiceFiles = Directory.GetFiles("./invoices_multilingual", "*.pdf");
// Map file to language for each supplier or region
Dictionary<string, Language> invoiceLanguages = new Dictionary<string, Language>
{
{ "invoice1_fr.pdf", Language.French },
{ "invoice2_es.pdf", Language.Spanish },
{ "invoice3_cn.pdf", Language.Chinese },
};
ステップ2:各言語の認識を設定および実行
InvoiceRecognitionSettings settings = new InvoiceRecognitionSettings();
AsposeOcr ocr = new AsposeOcr();
foreach (var kvp in invoiceLanguages)
{
settings.Language = kvp.Value;
OcrInput input = new OcrInput(InputType.PDF);
input.Add(kvp.Key);
var results = ocr.RecognizeInvoice(input, settings);
// Extract and process fields
}
ステップ3:安全にユニコード/非英語フィールドを抽出する
- セキュリティ ストレッチ 操作 Unicode をサポート
string fullText = results[0].RecognitionText;
// Use field parsing logic as in prior articles
ステップ4:多言語データのためのCSV/Excelに結果を輸出する
- すべての文字をサポートするために UTF-8 暗号化を使用する
using (var writer = new StreamWriter("invoice_multilingual.csv", false, Encoding.UTF8))
{
writer.WriteLine("File,Vendor,Date,Total,Language");
// Loop through results and write data
}
ステップ5:レビューのための低信頼/旗の問題を記録する
- OCR の結果は、非ラテン スクリプトまたは悪いスキャンのためにレビューを必要とするかもしれません。
ケースとアプリケーションの使用
グローバル金融とERP自動化
手動入力なしでグローバルサプライヤーからの請求書データを抽出します。
国際監査と遵守
さまざまな管轄および報告に関する正確な記録を維持する。
多言語投資アナリティクス
さまざまな言語や市場で報告と分析を可能にします。
共通の課題と解決策
課題1:未知または混合言語コンテンツ
ソリューション: Pre-label ファイル、または OCR 言語検出を最初のパスとして使用します。
チャレンジ2:暗号化またはユニコードエラー
ソリューション: 常に UTF-8 または Unicode サポートで処理および輸出します。
チャレンジ3:言語特有のランキング
ソリューション: テンプレートまたは地域ごとに抽出論理とフィールドパーシングを調整します。
パフォーマンス考慮
- 最良の正確さのための言語によるプロセス
- 各言語セットにおける出力を確認する
ベストプラクティス
- 各口座を予想される言語/テンプレートにマップする
- サンプルセットを使用してフィールド抽出論理を調べる
- ログエラーまたは不確実性 人間のレビュー
- プライバシーのための安全な国際データ
高度なシナリオ
シナリオ1:多言語ERPまたはワークフローと統合
直接ERP入力のためのフォーマット/暗号化の結果を輸出します。
シナリオ2:ダイナミック処理のための言語検出を使用する
Aspose.OCR の言語検出(利用可能な場合)を使用して、認知パイプラインを自動化します。
結論
Aspose.OCR Invoice to Text for .NET を使用すると、グローバルなサプライヤーのための請求書処理を自動化することができます - 高精度と無制限のワークフロー統合で多言語データを抽出します。
See ASPOSE.OCR for .NET API リファレンス サポートされた言語および高度な多国語コードサンプル。