Како Баццх Процес Мултијезични ОЦР са Аппосе.ОКР
Дигитализација глобалних архива, пословних докумената или анкетних обрасца често значи рад са више језика. ручна екстракција је спора и не скалирајућа. Аппосе.ОЦР за .НЕТ вам омогућава да аутоматизујете извлачење текста на различитим језицима из великих томова слика или ПДФ-а са само неколико линија кода.
Реал светски проблем
Међународне компаније, библиотеке и услуге података често се баве мешовитим језичким документима. ручно распоређивање и језичко-специфична екстракција су досадни и погрешни - посебно када се скалира до хиљада докумената.
Преглед решења
Аппосе.ОЦР за .НЕТ подржава више од 30 језика.Можете конфигурисати подешавања препознавања по датотеци или бацху, а затим аутоматизовати екстракцију и извоз у свој омиљени формат за беспрекорно интегрисање у пословне или истраживачке радне токове.
Принципи
- Visual Studio 2019 или касније
- .NET 6.0 или новији (или .Net Framework 4.6.2+)
- Aspose.OCR za .NET od NuGet
- Основни C# програмски искуство
PM> Install-Package Aspose.OCR
Корак по корак спровођење
Корак 1: Инсталирајте и конфигуришете Aspose.OCR
using Aspose.OCR;
Корак 2: Организовање улазних датотека по језику
Организујте своје улазне слике или ПДФ-а по језику у одвојеним фасциклама, или користите конвенцију именовања:
// Example folders: ./input/en, ./input/fr, ./input/zh
Корак 3: Подесите подешавања препознавања по језику
Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
{ "en", Language.English },
{ "fr", Language.French },
{ "zh", Language.ChineseSimplified }
};
Корак 4: Баццх процес унос датотеке
foreach (var pair in langFolders)
{
string folder = "./input/" + pair.Key;
RecognitionSettings settings = new RecognitionSettings();
settings.Language = pair.Value;
OcrInput input = new OcrInput(InputType.SingleImage);
foreach (string file in Directory.GetFiles(folder, "*.png"))
{
input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
result.Save(output, SaveFormat.Text);
}
}
Корак 5: Додајте управљање грешкама и аутоматизацију
try
{
// batch processing code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Корак 6: Оптимизација за брзину и тачност
- Радите обраду паралелно (са пажњом за меморију / ЦПУ)
- Koristite kvalitetne slike za najbolje rezultate
- Тун препознавања подешавања за уобичајене карактеристике распореда на сваком језику
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
// per-language processing logic
});
Корак 7: Потпуни пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
{ "en", Language.English },
{ "fr", Language.French },
{ "zh", Language.ChineseSimplified }
};
foreach (var pair in langFolders)
{
string folder = "./input/" + pair.Key;
RecognitionSettings settings = new RecognitionSettings();
settings.Language = pair.Value;
OcrInput input = new OcrInput(InputType.SingleImage);
foreach (string file in Directory.GetFiles(folder, "*.png"))
{
input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
result.Save(output, SaveFormat.Text);
}
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Коришћење случајева и апликација
Глобална дигитализација архива
Аутоматска екстракција текста из вишејезичних архива, новинара или корпоративних рекорда.
Међународна пословна аутоматизација
Додајте ОЦР резултате из мешовитог језика уговора, рачуна или ХР докумената у ваш глобални ЕРП или радни ток.
Мултијезична усклађеност и претрага
Омогућава пунотексто претрагу и провере у складу са документима на многим језицима.
Заједнички изазови и решења
Проблем 1: Мијешани језички документи
Решење: Изводите детекцију и обраду по страници, или користите режим језика Ауто ако је доступан.
Проблем 2: Различити квалитет слике
Решење: Стандардизирајте скенирање и извршите пре-процесирање како бисте нормализовали квалитет слике.
Izazov 3: Bottlenecks
Решење: Процесирање паралелно где је могуће и оптимизација коришћења ресурса.
Размишљање о перформанси
- Организовање радних места по језику за ефикасност ресурса
- Мониторинг меморије / ЦПУ са паралелним радовима
- Проверите излаз на сваком бацху
Најбоља пракса
- Држите језичке фасцикле организоване за лако решавање проблема
- Проверите бацх узорка за сваки језик
- Ажурирајте Aspose.OCR за најновије побољшања језика
- Обезбедите и улазне и излазне податке
Напредни сценарио
Сценарио 1: Извоз мултијазичних резултата на ЈСОН
foreach (RecognitionResult result in results)
{
result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}
Сценарио 2: Откривање језика аутоматски (ако је подржано)
settings.Language = Language.Auto;
Закључак
Aspose.OCR za .NET vam omogućava da automatizujete ekstrakciju teksta iz raznovrsnih, višejezičnih kolekcija slika – ubrzavajući globalnu digitalizaciju i čineći vaše arhive pretraživim, otkrivenim i spremnim za integraciju radnog tokova.
За комплетну листу подржаних језика и напредних савета, посетите Aspose.OCR за .NET API референце .