Làm thế nào để kết hợp quá trình OCR đa ngôn ngữ với Aspose.OCR

Làm thế nào để kết hợp quá trình OCR đa ngôn ngữ với Aspose.OCR

Dữ liệu toàn cầu, tài liệu kinh doanh, hoặc biểu mẫu khảo sát thường có nghĩa là làm việc với nhiều ngôn ngữ. chiết xuất bằng tay là chậm và không thể quy mô. Aspose.OCR cho .NET cho phép bạn tự động khai thác văn bản trong các ngoại ngữ khác nhau từ khối lượng lớn hình ảnh hoặc PDF chỉ với một vài dòng mã.

Vấn đề thế giới thực

Các công ty quốc tế, thư viện, và các dịch vụ dữ liệu thường xử lý các tài liệu bằng ngôn ngữ hỗn hợp. phân loại bằng tay và chiết xuất cụ thể về ngoại ngữ là mệt mỏi và sai lầm - đặc biệt là khi quy mô lên đến hàng ngàn giấy tờ.

Giải pháp Overview

Aspose.OCR cho .NET hỗ trợ hơn 30 ngôn ngữ. bạn có thể thiết lập cài đặt nhận dạng cho mỗi tệp hoặc bộ, sau đó tự động khai thác và xuất khẩu vào định dạng yêu thích của bạn để tích hợp không ngừng vào các dòng công việc kinh doanh hoặc nghiên cứu.

Nguyên tắc

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
  • Kinh nghiệm lập trình C#
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

using Aspose.OCR;

Bước 2: Tổ chức các tệp nhập theo ngôn ngữ

Tổ chức hình ảnh nhập hoặc PDF của bạn theo ngôn ngữ trong các thư mục riêng biệt, hoặc sử dụng một thỏa thuận đặt tên:

// Example folders: ./input/en, ./input/fr, ./input/zh

Bước 3: Thiết lập cài đặt nhận dạng theo ngôn ngữ

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

Bước 4: Batch Process Input File

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

Bước 5: Thêm lỗi xử lý và tự động hóa

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Bước 6: Tối ưu hóa tốc độ và độ chính xác

  • Thực hiện xử lý đồng bộ (với sự chăm sóc của bộ nhớ / CPU)
  • Sử dụng hình ảnh chất lượng cao cho kết quả tốt nhất
  • Tune thiết lập nhận dạng cho các tính năng bố trí phổ biến trong mỗi ngôn ngữ
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

Bước 7: Chọn ví dụ đầy đủ

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Sử dụng trường hợp và ứng dụng

Tính năng của Global Archive Digitization

Tự động thu thập văn bản từ các tập tin đa ngôn ngữ, tờ báo hoặc hồ sơ doanh nghiệp.

Tự động kinh doanh quốc tế

Feed OCR kết quả từ hợp đồng, hóa đơn, hoặc tài liệu nhân sự trong ERP toàn cầu hoặc dòng công việc của bạn.

Sự tuân thủ và tìm kiếm đa ngôn ngữ

Khả năng tìm kiếm văn bản đầy đủ và kiểm tra tuân thủ trên các tài liệu trong nhiều ngôn ngữ.

Những thách thức và giải pháp chung

Lời bài hát: Mixed Language Documents

** Giải pháp:** Thực hiện phát hiện và xử lý theo trang, hoặc sử dụng chế độ ngôn ngữ AUTO nếu có sẵn.

Thách thức 2: Chất lượng hình ảnh khác nhau

** Giải pháp:** Tiêu chuẩn hóa quét, và chạy quá trình xử lý để bình thường hóa chất lượng hình ảnh.

Thách thức 3: Performance Bottlenecks

** Giải pháp: ** Thực hiện đồng bộ khi có thể, và tối ưu hóa việc sử dụng tài nguyên.

Các tính toán hiệu suất

  • Tổ chức các công việc theo ngôn ngữ cho hiệu quả nguồn lực
  • Kiểm tra bộ nhớ/CPU với công việc song song
  • Chứng nhận kết quả trên mỗi gói

Thực hành tốt nhất

  • Giữ thư mục ngôn ngữ được tổ chức để giải quyết vấn đề dễ dàng
  • Chứng nhận một mẫu cho mỗi ngôn ngữ
  • Cập nhật Aspose.OCR cho các cải tiến ngôn ngữ mới nhất
  • Bảo mật cả dữ liệu nhập và xuất

kịch bản tiên tiến

Kịch bản 1: Xuất khẩu kết quả đa ngôn ngữ cho JSON

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

Kịch bản 2: Tự động phát hiện ngôn ngữ (nếu được hỗ trợ)

settings.Language = Language.Auto;

Kết luận

Aspose.OCR cho .NET cho phép bạn tự động thu thập văn bản từ các bộ sưu tập hình ảnh đa ngôn ngữ - tăng tốc số hóa toàn cầu và làm cho các tài liệu của bạn có thể tìm kiếm, phát hiện và sẵn sàng để tích hợp dòng công việc.

Để có một danh sách đầy đủ các ngôn ngữ được hỗ trợ và lời khuyên tiên tiến, hãy truy cập Aspose.OCR cho .NET API Reference .

 Tiếng Việt