Com combinar el procés multilingüe OCR amb Aspose.OCR

Com combinar el procés multilingüe OCR amb Aspose.OCR

Digitalitzar arxius globals, documents de negocis, o formularis d’enquesta sovint significa treballar amb múltiples llengües. l’extracció manual és lenta i no escalable. Aspose.OCR per .NET li permet automatitzar l’extració de text en diferents idiomes des de grans volums d’imatges o PDFs amb només unes poques línies de codi.

El problema del món real

Les empreses internacionals, les biblioteques i els serveis de dades sovint s’enfronten a documents de llenguatge mixt. La classificació manual i l’extracció específica de la llengua són tossos i errònies - especialment quan es calcula fins a milers de documents.

Revisió de solucions

Aspose.OCR per .NET dóna suport a més de 30 llengües.Pots configurar les configuracions de reconeixement per fitxer o batx, i després automatitzar l’extracció i exportació al teu format preferit per a la integració sense segles en els fluxos de treball de negocis o de recerca.

Prerequisits

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
  • Experiència de programació C#
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Instal·la i configura Aspose.OCR

using Aspose.OCR;

Pas 2: Organitzar els arxius d’entrada per llengua

Organitzar les seves imatges d’entrada o PDFs per llengua en mapes separades, o utilitzar una convenció de nom:

// Example folders: ./input/en, ./input/fr, ./input/zh

Pas 3: Configure les configuracions de reconeixement per llengua

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

Pas 4: Processos de batxeta de fitxers d’entrada

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

Pas 5: Afegir el tractament d’errors i l’automatització

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pas 6: Optimitzar per a velocitat i precisió

  • Executar el processament en paral·lel (amb cura de la memòria / CPU)
  • Utilitza imatges d’alta qualitat per obtenir els millors resultats
  • Instal·lacions de reconeixement Tune per a característiques de layout comuns en cada llengua
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

Capítol 7: Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilitzar casos i aplicacions

Digitalització de l’arxiu global

L’extracció automàtica del text d’arxius multilingüe, diaris o registres corporatius.

Automació empresarial internacional

Feed OCR resultats de contractes de llenguatge mixt, factures, o documents de recursos humans a la vostra ERP global o flux de treball.

Conformitat i recerca multilingüe

Permet la cerca de text complet i els controls de conformitat a través dels documents en moltes llengües.

Els reptes i les solucions comunes

Títol 1: Documents de llenguatge mixt

Solució: Feu la detecció i el processament per pàgina, o utilitzeu el mode de llengua AUTO si està disponible.

Títol 2: Qualitat de la imatge diferent

** Solució: ** Estandarditzar l’escaneig i executar la pre-processament per normalitzar la qualitat de la imatge.

Títol 3: Bottlenecks de rendiment

** Solució: ** Processar en paral·lel quan sigui possible, i optimitzar l’ús dels recursos.

Consideracions de rendiment

  • Organitzar llocs de treball per llenguatge per eficiència de recursos
  • Monitor de memòria/CPU amb treballs paral·lels
  • Validació de la producció en cada batxilla

Les millors pràctiques

  • Mantenir mapes de llenguatge organitzades per a fàcil resolució de problemes
  • Valida un paquet de mostres per a cada llengua
  • Actualitza Aspose.OCR per a les últimes millores lingüístiques
  • Assegurar les entrades i les sortides

Escenaris avançats

Escenari 1: Exportar resultats multilingüe a JSON

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

Escenari 2: Detectar automàticament el llenguatge (si es dóna suport)

settings.Language = Language.Auto;

Conclusió

Aspose.OCR per a .NET li permet automatitzar l’extracció de text de diverses, multilingües col·leccions d’imatges – accelerar la digitalització global i fer que els seus arxius siguin buscables, descobribles i preparats per la integració del flux de treball.

Per a una llista completa de llengües recolzades i consells avançats, visiteu el Aspose.OCR per a .NET API Referència .

 Català