วิธีการบูรณาการกระบวนการ OCR หลายภาษาด้วย Aspose.OCR
การดิจิทัลเอกสารเชิงพาณิชย์หรือแบบฟอร์มการสอบถามทั่วโลกมักหมายถึงการทํางานด้วยหลายภาษา การสกัดด้วยตนเองช้าและไม่สามารถสแกนได้ ASPOSE.OCR สําหรับ .NET ช่วยให้คุณสามารถอัตโนมัติการ สกัดข้อความในภาษาต่าง ๆ จากปริมาณขนาดใหญ่ของภาพหรือไฟล์ PDF ด้วยเส้นโค้ดเพียงไม่กี่
ปัญหาโลกจริง
บริษัท ระหว่างประเทศห้องสมุดและบริการข้อมูลมักจะจัดการกับเอกสารภาษาผสม การจัดเรียงแบบคู่มือและการสกัดภาษาที่เฉพาะเจาะจงเป็นเรื่องบ้าและเป็นข้อผิดพลาดโดยเฉพาะอย่างยิ่งเมื่อมีการสแกนถึงหลายพันเอกลักษณ์
ความคิดเห็นเกี่ยวกับโซลูชัน
Aspose.OCR สําหรับ .NET สนับสนุนมากกว่า 30 ภาษา คุณสามารถตั้งค่าการรับรู้ตามไฟล์หรือชุดแล้วอัตโนมัติการสกัดและส่งออกไปยังรูปแบบที่คุณต้องการเพื่อการรวมกันอย่างต่อเนื่องในธุรกิจหรือการวิจัย
ข้อกําหนด
- Visual Studio 2019 หรือภายหลัง
- .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
- Aspose.OCR สําหรับ .NET จาก NuGet
- ประสบการณ์การเขียนโปรแกรม C#
PM> Install-Package Aspose.OCR
การดําเนินการขั้นตอนขั้นตอน
ขั้นตอน 1: ติดตั้งและตั้งค่า Aspose.OCR
using Aspose.OCR;
ขั้นตอนที่ 2: จัดการไฟล์ input โดยภาษา
จัดการภาพหรือไฟล์ PDF ของคุณตามภาษาในโฟลเดอร์ที่แยกต่างหากหรือใช้สัญญาชื่อ:
// Example folders: ./input/en, ./input/fr, ./input/zh
ขั้นตอนที่ 3: การตั้งค่าการรับรู้ตามภาษา
Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
{ "en", Language.English },
{ "fr", Language.French },
{ "zh", Language.ChineseSimplified }
};
ขั้นตอน 4: กระบวนการป้อนไฟล์
foreach (var pair in langFolders)
{
string folder = "./input/" + pair.Key;
RecognitionSettings settings = new RecognitionSettings();
settings.Language = pair.Value;
OcrInput input = new OcrInput(InputType.SingleImage);
foreach (string file in Directory.GetFiles(folder, "*.png"))
{
input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
result.Save(output, SaveFormat.Text);
}
}
ขั้นตอน 5: เพิ่มการจัดการข้อผิดพลาดและอัตโนมัติ
try
{
// batch processing code
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
ขั้นตอน 6: ปรับปรุงความเร็วและความแม่นยํา
- การประมวลผลทํางานร่วมกัน (ด้วยความสนใจกับหน่วยความจํา / CPU)
- ใช้ภาพที่มีคุณภาพสูงสําหรับผลลัพธ์ที่ดีที่สุด
- การตั้งค่าการรับรู้แบบ Tune สําหรับคุณสมบัติการจัดตั้งทั่วไปในแต่ละภาษา
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
// per-language processing logic
});
ขั้นตอน 7: ตัวอย่างที่สมบูรณ์
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
try
{
Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
{ "en", Language.English },
{ "fr", Language.French },
{ "zh", Language.ChineseSimplified }
};
foreach (var pair in langFolders)
{
string folder = "./input/" + pair.Key;
RecognitionSettings settings = new RecognitionSettings();
settings.Language = pair.Value;
OcrInput input = new OcrInput(InputType.SingleImage);
foreach (string file in Directory.GetFiles(folder, "*.png"))
{
input.Add(file);
}
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
result.Save(output, SaveFormat.Text);
}
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
ใช้กรณีและแอปพลิเคชัน
การดิจิทัล Archive
การ استخراجข้อความโดยอัตโนมัติจากเอกสารหลายภาษาจดหมายหรือบันทึกองค์กร
อัตโนมัติธุรกิจระหว่างประเทศ
Feed OCR ผลจากสัญญาภาษาผสมบัญชีหรือเอกสาร HR ใน ERP หรือกระแสการทํางานทั่วโลกของคุณ
การปฏิบัติตามหลายภาษาและการค้นหา
ช่วยให้การค้นหาข้อความเต็มรูปแบบและการตรวจสอบการปฏิบัติตามเอกสารในหลายภาษา
ความท้าทายและโซลูชั่นทั่วไป
ความท้าทาย 1: เอกสารภาษาผสม
โซลูชัน: ทําการตรวจจับและการประมวลผลต่อหน้าหรือใช้โหมดภาษา AUTO หากมี
ปัญหา 2: คุณภาพภาพที่แตกต่างกัน
โซลูชัน: มาตรฐานการสแกนและดําเนินการการประมวลผลก่อนเพื่อปรับปรุงคุณภาพของภาพ
ความท้าทาย 3: Performance Bottlenecks
**โซลูชัน: ** การประมวลผลใน parallel ที่เป็นไปได้และเพิ่มประสิทธิภาพการใช้งานของทรัพยากร
การพิจารณาประสิทธิภาพ
- จัดการงานชุดตามภาษาเพื่อประหยัดทรัพยากร
- ตรวจสอบหน่วยความจํา / CPU ด้วยการทํางานร่วมกัน
- การยืนยันการผลิตในแต่ละชุด
แนวทางที่ดีที่สุด
- เก็บโฟลเดอร์ภาษาที่จัดขึ้นเพื่อแก้ปัญหาได้อย่างง่ายดาย
- รับรองชุดตัวอย่างสําหรับแต่ละภาษา
- ปรับปรุง Aspose.OCR สําหรับการปรับปรุงภาษาล่าสุด
- การรักษาความปลอดภัยทั้งข้อมูล input และ output
การ์ตูนขั้นสูง
ฉาก 1: การส่งออกผลลัพธ์หลายภาษาไปยัง JSON
foreach (RecognitionResult result in results)
{
result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}
ฉาก 2: การตรวจจับภาษาโดยอัตโนมัติ (ถ้าได้รับการสนับสนุน)
settings.Language = Language.Auto;
ข้อสรุป
Aspose.OCR for .NET ช่วยให้คุณสามารถอัตโนมัติการสกัดข้อความจากภาพที่หลากหลายและหลายภาษา - การดิจิทัลแบบทั่วโลกและทําให้ไฟล์ของคุณสามารถค้นหาได้พบได้และพร้อมสําหรับการบูรณาการของกระบวนการทํางาน
สําหรับรายการภาษาที่ได้รับการสนับสนุนและเคล็ดลับขั้นสูงเยี่ยมชม Aspose.OCR สําหรับการอ้างอิง API .NET .