Miten yhdistää prosessi monikielinen OCR kanssa Aspose.OCR

Miten yhdistää prosessi monikielinen OCR kanssa Aspose.OCR

Digitointi globaaleja arkistoja, liiketoiminta-asiakirjoja tai kyselylomakkeita usein tarkoittaa työskentelyä useita kieliä. Manuaalinen poisto on hidasta ja ei skalattavaa. Aspose.OCR for .NET avulla voit automaattisesti poistaa tekstin eri kielillä suuria määriä kuvia tai PDF-tiedostoja vain muutaman rivin koodia.

Reaalimaailman ongelma

Kansainväliset yritykset, kirjastot ja tietopalvelut käsittelevät usein sekoitettuja kielen asiakirjoja. Manuaalinen lajittelu ja kieli-erityinen poisto ovat tylsää ja virheellistä - varsinkin, kun kootaan jopa tuhansia dokumentteja.

Ratkaisun yleiskatsaus

Aspose.OCR for .NET tukee yli 30 kieltä. Voit määrittää tunnistamisasetukset tiedoston tai joukon mukaan, sitten automaattisesti kaivaa ja vienti suosikkivalmistuksesi turhaan integroitua liiketoimintaan tai tutkimustyökulmiin.

edellytykset

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET alkaen NuGet
  • C# -ohjelmoinnin kokemukset
PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Asenna ja asenna Aspose.OCR

using Aspose.OCR;

Vaihe 2: Sisällön tiedostojen järjestäminen kielen mukaan

Järjestä sisällönkuvat tai PDF-tiedostot kielen mukaan erillisissä tiedostoissa tai käytä nimeämisopimusta:

// Example folders: ./input/en, ./input/fr, ./input/zh

Vaihe 3: Määritä tunnistusasetukset kielen mukaan

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

Vaihe 4: Batch Process Input tiedostoja

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

Vaihe 5: Lisää virheiden käsittely ja automaatio

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Vaihe 6: Optimoi nopeutta ja tarkkuutta

  • Käynnistä käsittelyä rinnakkain (muistin/CPU:n hoidossa)
  • Käytä laadukkaita kuvia parhaan tuloksen saavuttamiseksi
  • Tunne tunnistamisasetukset yhteisiin asetusten ominaisuuksiin kussakin kielessä
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

Vaihe 7: Täydellinen esimerkki

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Käytä tapauksia ja sovelluksia

Arkkitehtuurin digitointi

Automaattinen tekstien poisto monikielisistä arkistoista, sanomalehdistä tai yritysrekistereistä.

Kansainvälinen liiketoiminnan automaatio

Feed OCR tulokset sekoitetuista kielistä sopimuksia, laskuja tai HR asiakirjoja globaaliin ERP tai työnkulun.

Monikielinen vaatimus ja etsintä

Mahdollistaa täyden tekstin hakeminen ja vaatimustenmukaisuuden tarkastukset eri asiakirjoissa monilla kielillä.

Yhteiset haasteet ja ratkaisut

Haaste 1: Sekoitetut kieliasiakirjat

** Ratkaisu:** Käynnistä havaitsemista ja käsittelyä sivua kohden tai käytä AUTO-kielen tilaa, jos se on käytettävissä.

Haaste 2: Kuvan laatu vaihtelee

** Ratkaisu:** Standardisoi skannaus ja käynnistää ennakkoprosessin kuvanlaadun normalisoimiseksi.

Haaste 3: suorituskyky Bottlenecks

** Ratkaisu:** Käsitellään rinnakkain, jos mahdollista, ja optimoidaan resurssien käyttöä.

suorituskyvyn huomioon ottaminen

  • Työpaikkojen järjestäminen kielellä resurssitehokkuuden varmistamiseksi
  • Muistin/CPU:n seuranta rinnakkaisilla työpaikoilla
  • Valitse kunkin matkan tuotto

Parhaat käytännöt

  • Pidä kielitiedostoja järjestettyinä ongelmien helpottamiseksi
  • Validoi näytepaketti jokaiselle kielelle
  • ASPOSE.OCR päivitetään uusimpien kielten parannusten osalta
  • Turvataan sekä sisään- että lähtötiedot

Edistyneet skenaariot

Skenaario 1: Monikielisten tulosten vienti JSONille

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

Skenaario 2: Kielen tunnistaminen automaattisesti (jos sitä tuetaan)

settings.Language = Language.Auto;

johtopäätöksiä

Aspose.OCR for .NET antaa sinulle mahdollisuuden automaattisesti tuoda tekstiä monipuolisista ja monikielisistä kuvien kokoelmista, jotka nopeuttavat maailmanlaajuista digitalisointia ja tekevät arkistosi etsimättömiksi, löydettäviksi ja valmiiksi työnkulun integrointiin.

Täydellinen luettelo tuetuista kielistä ja kehittyneistä vinkkeistä, vieraile ASPOSE.OCR .NET API-referenssille .

 Suomi