Wie man Multilingual OCR mit Aspose.OCR verarbeitet

Wie man Multilingual OCR mit Aspose.OCR verarbeitet

Die Digitalisierung von globalen Archiven, Geschäftsdokumenten oder Umfrageformularen bedeutet oft, mit mehreren Sprachen zu arbeiten. Die manuelle Extraction ist langsam und nicht skalierbar. Aspose.OCR für .NET ermöglicht es Ihnen, die Textextraction in verschiedenen Sprache aus großen Bildvolumen oder PDFs mit nur wenigen Code-Linien zu automatisieren.

Real-Weltproblem

Internationale Unternehmen, Bibliotheken und Datendienste beschäftigen sich oft mit gemischten Sprache-Dokumenten. manuelle Sortierung und Sprachspezifische Extraction sind langweilig und fehlerfreundlich – vor allem, wenn sie bis zu Tausenden von Dokumenten skaliert werden.

Überblick der Lösung

Aspose.OCR für .NET unterstützt mehr als 30 Sprachen. Sie können Anerkennungseinstellungen pro Datei oder Setch konfigurieren, dann Automatisieren Sie die Extraction und Export in Ihr bevorzugtes Format für unbequeme Integration in Geschäfts- oder Forschungsarbeitströme.

Voraussetzung

  • Visual Studio 2019 oder später
  • .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
  • Aspose.OCR für .NET von NuGet
  • Grundlegende C#-Programmiererfahrung
PM> Install-Package Aspose.OCR

Schritt für Schritt Implementierung

Schritt 1: Installieren und konfigurieren Aspose.OCR

using Aspose.OCR;

Schritt 2: Einführungsdateien nach Sprache organisieren

Organisieren Sie Ihre Einträge oder PDFs nach Sprache in getrennte Ordner oder verwenden Sie eine Namenskonvention:

// Example folders: ./input/en, ./input/fr, ./input/zh

Schritt 3: Konfigurieren Sie die Anerkennungssätze pro Sprache

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

Schritt 4: Batch Prozess Input-Dateien

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

Schritt 5: Fehlerbehandlung und Automatisierung hinzufügen

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Schritt 6: Optimierung für Geschwindigkeit und Genauigkeit

  • Durchführen Sie die Verarbeitung parallel (mit Aufmerksamkeit für Speicher/CPU)
  • Verwenden Sie hochwertige Bilder für die besten Ergebnisse
  • Tune erkennen Einstellungen für gemeinsame Layout-Funktionen in jeder Sprache
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

Schritt 7: Vollständiges Beispiel

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Verwendung von Fällen und Anwendungen

Global Archive Digitalisierung

Automatische Text-Extraktion aus mehrsprachigen Archiven, Zeitungen oder Unternehmensregister.

Internationale Business Automation

Feed OCR Ergebnisse aus gemischten Sprachenverträgen, Rechnungen oder HR-Dokumente in Ihren globalen ERP oder Workflow.

Mehrsprachige Übereinstimmung und Suche

Es ermöglicht vollständige Textsuche und Konformitätsprüfungen über Dokumente in vielen Sprachen.

Gemeinsame Herausforderungen und Lösungen

Herausforderung 1: Mixed-Language Dokumente

Lösung: Durchführen Sie die Erkennung und Verarbeitung pro Seite oder verwenden Sie AUTO-Sprachmodus, wenn verfügbar.

Herausforderung 2: Veränderung der Bildqualität

Lösung: Standardisieren Sie die Scannen und führen Sie eine Vorverarbeitung durch, um die Bildqualität zu normalisieren.

Herausforderung 3: Performance Bottlenecks

Lösung: Verarbeitet parallel, wo möglich, und optimiert die Ressourcenverwendung.

Performance Beachtung

  • Organisieren Sie Battchjobs nach Sprache für Ressourceneffizienz
  • Überwachung von Speicher/CPU mit parallelen Arbeitsplätzen
  • Validieren Sie die Ausgabe auf jedem Batch

Beste Praktiken

  • Halten Sie Sprachmappen organisiert, um Probleme leicht zu lösen
  • Validieren Sie ein Probe-Batch für jede Sprache
  • Aktualisieren Sie Aspose.OCR für die neuesten Sprachverbesserungen
  • Sichere sowohl Eingang- als auch Ausgangdaten

Fortgeschrittene Szenarien

Szenario 1: Exportieren von mehrsprachigen Ergebnissen zu JSON

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

Scenario 2: Sprach automatisch zu erkennen (wenn unterstützt)

settings.Language = Language.Auto;

Schlussfolgerungen

ASPOSE.OCR für .NET ermöglicht es Ihnen, Text-Extraktion aus vielfältigen, mehrsprachigen Bildkollektionen zu automatisieren – die weltweite Digitalisierung zu beschleunigen und Ihre Dateien zu suchen, zu entdecken und bereit für Workflow-Integration zu machen.

Für eine vollständige Liste der unterstützten Sprachen und fortgeschrittene Tipps, besuchen Sie die Aspose.OCR für .NET API Referenz .

 Deutsch