Bagaimana untuk menggabungkan proses multilingual OCR dengan Aspose.OCR

Bagaimana untuk menggabungkan proses multilingual OCR dengan Aspose.OCR

Menghitung arsip global, dokumen bisnis, atau formulir survei sering berarti bekerja dengan beberapa bahasa. ekstraksi manual lambat dan tidak berskala. Aspose.OCR untuk .NET memungkinkan Anda untuk mengautomatikkan ekstrak teks dalam berbagai bahasa dari volume besar gambar atau PDF dengan hanya beberapa baris kode.

Masalah dunia nyata

Perusahaan internasional, perpustakaan, dan layanan data sering berurusan dengan dokumen-dokumen bahasa campuran. pemilihan manual dan ekstraksi bahasa-spesifik membosankan dan keliru - terutama ketika mengukur hingga ribuan dokumen.

Penyelesaian Overview

Aspose.OCR untuk .NET mendukung lebih dari 30 bahasa. Anda dapat mengkonfigurasi pengaturan pengenalan per file atau batch, kemudian otomatis ekstraksi dan ekspor ke format favorit Anda untuk integrasi tanpa batas ke dalam bisnis atau aliran kerja penelitian.

Persyaratan

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
  • Pengalaman dalam pemrograman C#
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR

using Aspose.OCR;

Langkah 2: Mengatur file input dengan bahasa

Mengatur gambar input atau PDF Anda dengan bahasa dalam folder yang terpisah, atau gunakan konvensyen nama:

// Example folders: ./input/en, ./input/fr, ./input/zh

Langkah 3: Mengkonfigurasi Pengenalan Per Bahasa

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

Langkah 4: Batch Process Input File

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

Langkah 5: Menambahkan Error Handling dan Automasi

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Langkah 6: Optimisasi untuk kecepatan dan keakuratan

  • Melakukan pemrosesan secara paralel (dengan perawatan memori / CPU)
  • Gunakan gambar berkualitas tinggi untuk hasil terbaik
  • Tune pengenalan pengaturan untuk fitur layout umum dalam setiap bahasa
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

Langkah 7: Contoh lengkap

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Menggunakan kasus dan aplikasi

Digitalisasi Arsip Global

Mengekstrak teks secara otomatis dari arkib, surat kabar, atau rekaman perusahaan.

Automasi Bisnis Internasional

Feed OCR hasil dari kontrak bahasa campuran, invois, atau dokumen HR ke ERP global Anda atau aliran kerja.

Kompatibilitas dan pencarian multilingual

Memungkinkan pencarian teks penuh dan pemeriksaan pematuhan di seluruh dokumen dalam banyak bahasa.

Tantangan dan Solusi Umum

Tantangan 1: Dokumentasi bahasa campuran

** Solusi:** Lakukan deteksi dan pemrosesan per halaman, atau gunakan mode bahasa AUTO jika tersedia.

Tantangan 2: Mengubah kualitas gambar

** Solusi:** Standardisasi pemindaian, dan menjalankan pra-prosesan untuk normalisasi kualitas gambar.

Tantangan 3: Performa Bottlenecks

** Solusi:** Proses secara paralel di mana mungkin, dan mengoptimalkan penggunaan sumber daya.

Pertimbangan kinerja

  • Mengatur pekerjaan batch per bahasa untuk efisiensi sumber daya
  • Memori monitor/CPU dengan pekerjaan paralel
  • Mengesahkan output pada setiap batch

Praktik Terbaik

  • Menjaga folder bahasa terorganisir untuk penyelesaian masalah yang mudah
  • Pilih sampel untuk setiap bahasa
  • Update Aspose.OCR untuk penambahbaikan bahasa terbaru
  • Mengamankan data input dan output

Skenario Lanjutan

Skenario 1: Ekspor hasil multilingual ke JSON

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

Skenario 2: Mengidentifikasi bahasa secara otomatis (jika didukung)

settings.Language = Language.Auto;

Kesimpulan

Aspose.OCR untuk .NET memungkinkan Anda untuk mengautomatikkan ekstraksi teks dari koleksi gambar yang beragam dan berbilang bahasa – mempercepat digitalisasi global dan membuat arsip Anda dapat dicari, ditemukan, dan siap untuk integrasi aliran kerja.

Untuk daftar lengkap bahasa yang didukung dan tips lanjutan, kunjungi Aspose.OCR untuk .NET API Referensi .

 Indonesia