Како Баццх Процес Мултијезични ОЦР са Аппосе.ОКР

Како Баццх Процес Мултијезични ОЦР са Аппосе.ОКР

Дигитализација глобалних архива, пословних докумената или анкетних обрасца често значи рад са више језика. ручна екстракција је спора и не скалирајућа. Аппосе.ОЦР за .НЕТ вам омогућава да аутоматизујете извлачење текста на различитим језицима из великих томова слика или ПДФ-а са само неколико линија кода.

Реал светски проблем

Међународне компаније, библиотеке и услуге података често се баве мешовитим језичким документима. ручно распоређивање и језичко-специфична екстракција су досадни и погрешни - посебно када се скалира до хиљада докумената.

Преглед решења

Аппосе.ОЦР за .НЕТ подржава више од 30 језика.Можете конфигурисати подешавања препознавања по датотеци или бацху, а затим аутоматизовати екстракцију и извоз у свој омиљени формат за беспрекорно интегрисање у пословне или истраживачке радне токове.

Принципи

  • Visual Studio 2019 или касније
  • .NET 6.0 или новији (или .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • Основни C# програмски искуство
PM> Install-Package Aspose.OCR

Корак по корак спровођење

Корак 1: Инсталирајте и конфигуришете Aspose.OCR

using Aspose.OCR;

Корак 2: Организовање улазних датотека по језику

Организујте своје улазне слике или ПДФ-а по језику у одвојеним фасциклама, или користите конвенцију именовања:

// Example folders: ./input/en, ./input/fr, ./input/zh

Корак 3: Подесите подешавања препознавања по језику

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

Корак 4: Баццх процес унос датотеке

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

Корак 5: Додајте управљање грешкама и аутоматизацију

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Корак 6: Оптимизација за брзину и тачност

  • Радите обраду паралелно (са пажњом за меморију / ЦПУ)
  • Koristite kvalitetne slike za najbolje rezultate
  • Тун препознавања подешавања за уобичајене карактеристике распореда на сваком језику
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

Корак 7: Потпуни пример

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Коришћење случајева и апликација

Глобална дигитализација архива

Аутоматска екстракција текста из вишејезичних архива, новинара или корпоративних рекорда.

Међународна пословна аутоматизација

Додајте ОЦР резултате из мешовитог језика уговора, рачуна или ХР докумената у ваш глобални ЕРП или радни ток.

Мултијезична усклађеност и претрага

Омогућава пунотексто претрагу и провере у складу са документима на многим језицима.

Заједнички изазови и решења

Проблем 1: Мијешани језички документи

Решење: Изводите детекцију и обраду по страници, или користите режим језика Ауто ако је доступан.

Проблем 2: Различити квалитет слике

Решење: Стандардизирајте скенирање и извршите пре-процесирање како бисте нормализовали квалитет слике.

Izazov 3: Bottlenecks

Решење: Процесирање паралелно где је могуће и оптимизација коришћења ресурса.

Размишљање о перформанси

  • Организовање радних места по језику за ефикасност ресурса
  • Мониторинг меморије / ЦПУ са паралелним радовима
  • Проверите излаз на сваком бацху

Најбоља пракса

  • Држите језичке фасцикле организоване за лако решавање проблема
  • Проверите бацх узорка за сваки језик
  • Ажурирајте Aspose.OCR за најновије побољшања језика
  • Обезбедите и улазне и излазне податке

Напредни сценарио

Сценарио 1: Извоз мултијазичних резултата на ЈСОН

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

Сценарио 2: Откривање језика аутоматски (ако је подржано)

settings.Language = Language.Auto;

Закључак

Aspose.OCR za .NET vam omogućava da automatizujete ekstrakciju teksta iz raznovrsnih, višejezičnih kolekcija slika – ubrzavajući globalnu digitalizaciju i čineći vaše arhive pretraživim, otkrivenim i spremnim za integraciju radnog tokova.

За комплетну листу подржаних језика и напредних савета, посетите Aspose.OCR за .NET API референце .

 Српски