Kaip ištraukti sąskaitų duomenis iš daugiakalbinių faktūrų
Sąskaitos automatizavimas dažnai apima tiekėjus ar dokumentus keliomis kalbomis – kelia iššūkius lauko ištraukimui, kodavimui ir darbo srautų integracijai. „Aspose.OCR“ sąskaita į tekstą .NET skatina daugiakalbį faktūros pripažinimą pasaulinėms įmonėms.
Realaus pasaulio problemos
Manualinis sąskaitų tvarkymas keliomis kalbomis yra laiko ir klaidų priežastis. Automatinis duomenų ištraukimas neveikia, jei kiekvienam tiksliniam kalbui ir scenarijui nėra įtrauktas OCR.
Sprendimo apžvalga
„Liverage Aspose.OCR“ kalba palaiko duomenis iš Prancūzijos, ispanų, kinų ar kitų sąskaitų – leidžia pasaulinei finansų automatizavimui ir laikymui.
Prerequisites
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
- Sąskaitų sąrašas skirtingomis kalbomis
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: paruoškite daugiakalbę sąskaitą
string[] invoiceFiles = Directory.GetFiles("./invoices_multilingual", "*.pdf");
// Map file to language for each supplier or region
Dictionary<string, Language> invoiceLanguages = new Dictionary<string, Language>
{
{ "invoice1_fr.pdf", Language.French },
{ "invoice2_es.pdf", Language.Spanish },
{ "invoice3_cn.pdf", Language.Chinese },
};
2 žingsnis: nustatyti ir paleisti kiekvienos kalbos pripažinimą
InvoiceRecognitionSettings settings = new InvoiceRecognitionSettings();
AsposeOcr ocr = new AsposeOcr();
foreach (var kvp in invoiceLanguages)
{
settings.Language = kvp.Value;
OcrInput input = new OcrInput(InputType.PDF);
input.Add(kvp.Key);
var results = ocr.RecognizeInvoice(input, settings);
// Extract and process fields
}
3 žingsnis: Unicode / ne anglų laukas saugiai pašalinti
- Saugus sričių tvarkymas palaiko Unicode
string fullText = results[0].RecognitionText;
// Use field parsing logic as in prior articles
4 žingsnis: Eksportuoti rezultatus į CSV / Excel daugiakalbiais duomenimis
- Naudokite UTF-8 kodą, kad palaikytumėte visus simbolius
using (var writer = new StreamWriter("invoice_multilingual.csv", false, Encoding.UTF8))
{
writer.WriteLine("File,Vendor,Date,Total,Language");
// Loop through results and write data
}
5 žingsnis: Įveskite mažo pasitikėjimo / vėliavos klausimus peržiūrėti
- OCR rezultatams gali prireikti peržiūrėti ne lotynų scenarijus ar blogus skenavimus
Naudokite atvejus ir paraiškas
Global Finance ir ERP automatizavimas
Išgauti sąskaitos duomenis iš pasaulinių tiekėjų be rankinio įvedimo.
Tarptautinis auditas ir atitikimas
Išsaugoti tikslius įrašus įvairioms jurisdikcijoms ir ataskaitoms.
Daugiakalbės išlaidų analizė
Galima teikti ataskaitas ir analizę įvairiomis kalbomis ir rinkomis.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: nežinomas arba mišrus kalbos turinys
Išsprendimas: Pre-label failus arba naudoti OCR kalbos aptikimą kaip pirmąjį pasą.
Iššūkis 2: Šifravimas arba Unicode klaidos
Išsprendimas: Visada apdoroti ir eksportuoti su UTF-8 arba Unicode palaikymu.
3 iššūkis: kalbų specifikacijos
Išsprendimas: Įveskite ekstrakcijos logiką ir lauką pagal šabloną ar regioną.
Veiksmingumo apžvalgos
- Procesas pagal kalbą geriausiam tikslumui
- Validuokite išėjimus kiekvienoje kalbų grupėje
Geriausios praktikos
- Kiekvienos sąskaitos žemėlapis į numatytą kalbą / šabloną
- Naudokite mėginių rinkinį, kad atspindėtumėte lauko ekstrakcijos logiką
- Įrašų klaidos ar netikrumai žmogaus peržiūros
- Saugūs tarptautiniai duomenys privatumui
Išplėstiniai scenarijai
1 scenarijus: integruoti su daugiakalbiu ERP arba darbo srautu
Eksporto rezultatai formatu / kodavimu tiesioginiam ERP įvedimui.
2 scenarijus: naudojant kalbos aptikimą dinaminiam apdorojimui
Naudokite Aspose.OCR kalbos detekciją (jei įmanoma), kad automatizuotumėte atpažinimo vamzdį.
Conclusion
Naudodami „Aspose.OCR Invoice to Text for .NET“, galite automatizuoti sąskaitų apdorojimą pasauliniams tiekėjams – gaunant daugiakalbius duomenis su dideliu tikslumu ir beprasmiška darbo srauto integracija.
See ASPOSE.OCR už .NET API nuorodą remiamų kalbų ir pažangių daugiakalbių kodo pavyzdžių.