วิธีการบูรณาการกระบวนการ OCR หลายภาษาด้วย Aspose.OCR

วิธีการบูรณาการกระบวนการ OCR หลายภาษาด้วย Aspose.OCR

การดิจิทัลเอกสารเชิงพาณิชย์หรือแบบฟอร์มการสอบถามทั่วโลกมักหมายถึงการทํางานด้วยหลายภาษา การสกัดด้วยตนเองช้าและไม่สามารถสแกนได้ ASPOSE.OCR สําหรับ .NET ช่วยให้คุณสามารถอัตโนมัติการ สกัดข้อความในภาษาต่าง ๆ จากปริมาณขนาดใหญ่ของภาพหรือไฟล์ PDF ด้วยเส้นโค้ดเพียงไม่กี่

ปัญหาโลกจริง

บริษัท ระหว่างประเทศห้องสมุดและบริการข้อมูลมักจะจัดการกับเอกสารภาษาผสม การจัดเรียงแบบคู่มือและการสกัดภาษาที่เฉพาะเจาะจงเป็นเรื่องบ้าและเป็นข้อผิดพลาดโดยเฉพาะอย่างยิ่งเมื่อมีการสแกนถึงหลายพันเอกลักษณ์

ความคิดเห็นเกี่ยวกับโซลูชัน

Aspose.OCR สําหรับ .NET สนับสนุนมากกว่า 30 ภาษา คุณสามารถตั้งค่าการรับรู้ตามไฟล์หรือชุดแล้วอัตโนมัติการสกัดและส่งออกไปยังรูปแบบที่คุณต้องการเพื่อการรวมกันอย่างต่อเนื่องในธุรกิจหรือการวิจัย

ข้อกําหนด

  • Visual Studio 2019 หรือภายหลัง
  • .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
  • Aspose.OCR สําหรับ .NET จาก NuGet
  • ประสบการณ์การเขียนโปรแกรม C#
PM> Install-Package Aspose.OCR

การดําเนินการขั้นตอนขั้นตอน

ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR

using Aspose.OCR;

ขั้นตอนที่ 2: จัดการไฟล์ input โดยภาษา

จัดการภาพหรือไฟล์ PDF ของคุณตามภาษาในโฟลเดอร์ที่แยกต่างหากหรือใช้สัญญาชื่อ:

// Example folders: ./input/en, ./input/fr, ./input/zh

ขั้นตอนที่ 3: การตั้งค่าการรับรู้ตามภาษา

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

ขั้นตอน 4: กระบวนการป้อนไฟล์

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

ขั้นตอน 5: เพิ่มการจัดการข้อผิดพลาดและอัตโนมัติ

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

ขั้นตอน 6: ปรับปรุงความเร็วและความแม่นยํา

  • การประมวลผลทํางานร่วมกัน (ด้วยความสนใจกับหน่วยความจํา / CPU)
  • ใช้ภาพที่มีคุณภาพสูงสําหรับผลลัพธ์ที่ดีที่สุด
  • การตั้งค่าการรับรู้แบบ Tune สําหรับคุณสมบัติการจัดตั้งทั่วไปในแต่ละภาษา
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

ขั้นตอน 7: ตัวอย่างที่สมบูรณ์

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

ใช้กรณีและแอปพลิเคชัน

การดิจิทัล Archive

การ استخراجข้อความโดยอัตโนมัติจากเอกสารหลายภาษาจดหมายหรือบันทึกองค์กร

อัตโนมัติธุรกิจระหว่างประเทศ

Feed OCR ผลจากสัญญาภาษาผสมบัญชีหรือเอกสาร HR ใน ERP หรือกระแสการทํางานทั่วโลกของคุณ

การปฏิบัติตามหลายภาษาและการค้นหา

ช่วยให้การค้นหาข้อความเต็มรูปแบบและการตรวจสอบการปฏิบัติตามเอกสารในหลายภาษา

ความท้าทายและโซลูชั่นทั่วไป

ความท้าทาย 1: เอกสารภาษาผสม

โซลูชัน: ทําการตรวจจับและการประมวลผลต่อหน้าหรือใช้โหมดภาษา AUTO หากมี

ปัญหา 2: คุณภาพภาพที่แตกต่างกัน

โซลูชัน: มาตรฐานการสแกนและดําเนินการการประมวลผลก่อนเพื่อปรับปรุงคุณภาพของภาพ

ความท้าทาย 3: Performance Bottlenecks

**โซลูชัน: ** การประมวลผลใน parallel ที่เป็นไปได้และเพิ่มประสิทธิภาพการใช้งานของทรัพยากร

การพิจารณาประสิทธิภาพ

  • จัดการงานชุดตามภาษาเพื่อประหยัดทรัพยากร
  • ตรวจสอบหน่วยความจํา / CPU ด้วยการทํางานร่วมกัน
  • การยืนยันการผลิตในแต่ละชุด

แนวทางที่ดีที่สุด

  • เก็บโฟลเดอร์ภาษาที่จัดขึ้นเพื่อแก้ปัญหาได้อย่างง่ายดาย
  • รับรองชุดตัวอย่างสําหรับแต่ละภาษา
  • ปรับปรุง Aspose.OCR สําหรับการปรับปรุงภาษาล่าสุด
  • การรักษาความปลอดภัยทั้งข้อมูล input และ output

การ์ตูนขั้นสูง

ฉาก 1: การส่งออกผลลัพธ์หลายภาษาไปยัง JSON

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

ฉาก 2: การตรวจจับภาษาโดยอัตโนมัติ (ถ้าได้รับการสนับสนุน)

settings.Language = Language.Auto;

ข้อสรุป

Aspose.OCR for .NET ช่วยให้คุณสามารถอัตโนมัติการสกัดข้อความจากภาพที่หลากหลายและหลายภาษา - การดิจิทัลแบบทั่วโลกและทําให้ไฟล์ของคุณสามารถค้นหาได้พบได้และพร้อมสําหรับการบูรณาการของกระบวนการทํางาน

สําหรับรายการภาษาที่ได้รับการสนับสนุนและเคล็ดลับขั้นสูงเยี่ยมชม Aspose.OCR สําหรับการอ้างอิง API .NET .

 แบบไทย