Kā apvienot daudzvalodīgu OCR procesu ar Aspose.OCR

Kā apvienot daudzvalodīgu OCR procesu ar Aspose.OCR

Globālo arhīvu, uzņēmējdarbības dokumentu vai aptaujas veidlapu digitalizēšana bieži nozīmē darbu ar vairākiem valodām. rokasgrāmata ir lēna un nav skalējama. Aspose.OCR for .NET ļauj automatizēt teksta ekstrakciju dažādās valodās no lieliem attēliem vai PDF ar tikai dažām koda līnijām.

Reālā pasaules problēma

Starptautiskās kompānijas, bibliotēkas un datu pakalpojumi bieži nodarbojas ar sajauktajiem valodas dokumentiem. rokasgrāmata un valodu specifiskā ekstrakcija ir nogurusi un kļūdainoša - it īpaši, kad tiek skaloti līdz tūkstošiem dokumentu.

Risinājumu pārskats

Aspose.OCR for .NET atbalsta vairāk nekā 30 valodas. Jūs varat konfigurēt atpazīšanas iestatījumus pēc faila vai kompleksa, pēc tam automātiski ekstrakciju un eksportu savā preferētā formātā, lai bezjēdzīgi integrētu uzņēmējdarbības vai pētniecības darba plūsmas.

Prerequisites

  • Visual Studio 2019 vai vēlāk
  • .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
  • Aspose.OCR par .NET no NuGet
  • C# programmēšanas pieredze
PM> Install-Package Aspose.OCR

Step-by-step īstenošana

1. solis: Uzstādīt un konfigurēt Aspose.OCR

using Aspose.OCR;

2. solis: Ievadiet failus pēc valodas

Organizējiet ieejas attēlus vai PDF pēc valodas atsevišķās mapēs vai izmantojiet nosaukuma konvenciju:

// Example folders: ./input/en, ./input/fr, ./input/zh

3. solis: Iestatīt atpazīšanas iestatījumus pēc valodas

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

4. solis: Batch procesā ievadīšanas failus

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

5. solis: pievienojiet kļūdu apstrādi un automatizāciju

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

6. solis: optimizēt ātrumu un precizitāti

  • Izveidojiet apstrādi paralēli (ar atmiņas/CPU aprūpi)
  • Izmanto augstas kvalitātes attēlus labākajiem rezultātiem
  • Tune atpazīšanas iestatījumi par kopīgām izkārtojuma funkcijām katrā valodā
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

7. solis: pilns piemērs

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Izmantojiet gadījumus un pieteikumus

Globālā arhīva digitalizācija

Automātiska teksta ekstrakcija no daudzvalodīgajiem arhīviem, laikrakstām vai korporatīvajiem ierakstiem.

Starptautiskā biznesa automācija

Sildīt OCR rezultātus no sajaukta valodas līgumiem, rēķiniem vai HR dokumentiem jūsu globālajā ERP vai darba plūsmā.

Daudzvalodu atbilstība un meklēšana

Iespēj pilnīgu teksta meklēšanu un atbilstības pārbaudes starp dokumentiem daudzās valodās.

Kopīgi izaicinājumi un risinājumi

1. izaicinājums: Mixed-Language dokumenti

Rīze: Izveidojiet detekciju un apstrādi pēc lapas vai, ja pieejams, izmantojiet AUTO valodas režīmu.

2. problēma: attēla kvalitāte

Lēmums: Standartizējiet skenēšanu un veiksiet iepriekšēju apstrādi, lai normalizētu attēla kvalitāti.

3. izaicinājums: Performance Bottlenecks

Rīkojums: Darbojas paralēli, ja iespējams, un optimizē resursu izmantošanu.

Darbības apsvērumi

  • Organizēt darbavietas pēc valodas resursu efektivitātes nodrošināšanai
  • Pārraidiet atmiņu/CPU ar paralēliem darbiem
  • Pārbaudiet rezultātus katrā komplektā

Labākās prakses

  • Saglabājiet valodas mapes organizētas, lai viegli atrisinātu problēmas
  • Validējiet paraugu komplektu katram valodam
  • Aspose.OCR atjauninājums jaunākajiem valodas uzlabojumiem
  • Aizsargā gan ieejas, gan izejas datus

Augstākie scenāriji

1. scenārijs: daudzvalodīgu rezultātu eksports uz JSON

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

2. scenārijs: Valodas atklāšana automātiski (ja tiek atbalstīta)

settings.Language = Language.Auto;

Conclusion

Aspose.OCR for .NET ļauj automatizēt teksta ekstrakciju no dažādām, daudzvalodu attēlu kolekcijām – paātrinot globālo digitalizāciju un padarot jūsu arhīvas meklējamas, atklātas un gatavas darba plūsmas integrācijai.

Lai iegūtu pilnīgu atbalsta valodu un uzlabotu padomu sarakstu, apmeklējiet Aspose.OCR par .NET API atsauci .

 Latviski