Aspose.OCR के साथ बहुभाषी OCR प्रक्रिया को कैसे बैच करें

Aspose.OCR के साथ बहुभाषी OCR प्रक्रिया को कैसे बैच करें

वैश्विक संग्रह, व्यावसायिक दस्तावेजों या सर्वेक्षण फॉर्मों को डिजिटल करना अक्सर कई भाषाओं के साथ काम करने का मतलब होता है. मैनुअल निकालना धीमा और स्केल नहीं होता. .NET के लिए Aspose.OCR आपको बड़ी मात्रा में छवियों या पीडीएफ से पाठ निकालने को स्वचालित करने की अनुमति देता है।

असली दुनिया की समस्या

अंतरराष्ट्रीय कंपनियां, पुस्तकालय और डेटा सेवाएं अक्सर मिश्रित-भाषी दस्तावेजों से निपटती हैं. मैन्युअल वर्गीकरण और भाषा-विशिष्ट निष्कर्षण उबाऊ और त्रुटि-प्रेरित होते हैं – खासकर जब हज़ारों तक का स्केल होता है.

समाधान समीक्षा

.NET के लिए Aspose.OCR 30 से अधिक भाषाओं का समर्थन करता है. आप फ़ाइल या बैच पर पहचान सेटिंग्स सेट कर सकते हैं, फिर अपने पसंदीदा प्रारूप में निष्कर्षण और निर्यात को स्वचालित करके व्यापार या अनुसंधान कार्यप्रवाहों में अनियंत्रित रूप से एकीकरण कर सकें.

Prerequisites

  • Visual Studio 2019 या बाद में
  • .NET 6.0 या बाद में (या .Net Framework 4.6.2+)
  • NuGet से .NET के लिए Aspose.OCR
  • C# प्रोग्रामिंग अनुभव
PM> Install-Package Aspose.OCR

चरण-दर-चरण कार्यान्वयन

चरण 1: Aspose.OCR स्थापित करें और सेट करें

using Aspose.OCR;

चरण 2: भाषा के अनुसार इनपुट फ़ाइलों को व्यवस्थित करें

अपनी इनपुट छवियों या पीडीएफ को अलग-अलग फ़ोल्डरों में भाषा के अनुसार व्यवस्थित करें, या एक नामकरण सम्मेलन का उपयोग करें:

// Example folders: ./input/en, ./input/fr, ./input/zh

चरण 3: भाषा के अनुसार पहचान सेटिंग्स सेट करें

Dictionary<string, Language> langFolders = new Dictionary<string, Language>
{
    { "en", Language.English },
    { "fr", Language.French },
    { "zh", Language.ChineseSimplified }
};

चरण 4: बैच प्रक्रिया इनपुट फ़ाइलें

foreach (var pair in langFolders)
{
    string folder = "./input/" + pair.Key;
    RecognitionSettings settings = new RecognitionSettings();
    settings.Language = pair.Value;

    OcrInput input = new OcrInput(InputType.SingleImage);
    foreach (string file in Directory.GetFiles(folder, "*.png"))
    {
        input.Add(file);
    }

    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);

    foreach (RecognitionResult result in results)
    {
        string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
        result.Save(output, SaveFormat.Text);
    }
}

चरण 5: त्रुटियों को संभालना और स्वचालित करना जोड़ें

try
{
    // batch processing code
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

चरण 6: गति और सटीकता के लिए अनुकूलन

  • समानांतर प्रसंस्करण चलाएं (मेमोरी / सीपीयू की देखभाल के साथ)
  • सर्वोत्तम परिणाम के लिए उच्च गुणवत्ता वाली छवियों का उपयोग करें
  • प्रत्येक भाषा में सामान्य लेआउट सुविधाओं के लिए ट्यूनिंग पहचान सेटिंग्स
// Example: Parallel batch processing
Parallel.ForEach(langFolders, pair =>
{
    // per-language processing logic
});

चरण 7: पूर्ण उदाहरण

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            Dictionary<string, Language> langFolders = new Dictionary<string, Language>
            {
                { "en", Language.English },
                { "fr", Language.French },
                { "zh", Language.ChineseSimplified }
            };

            foreach (var pair in langFolders)
            {
                string folder = "./input/" + pair.Key;
                RecognitionSettings settings = new RecognitionSettings();
                settings.Language = pair.Value;

                OcrInput input = new OcrInput(InputType.SingleImage);
                foreach (string file in Directory.GetFiles(folder, "*.png"))
                {
                    input.Add(file);
                }

                AsposeOcr ocr = new AsposeOcr();
                List<RecognitionResult> results = ocr.Recognize(input, settings);

                foreach (RecognitionResult result in results)
                {
                    string output = Path.Combine("./output/", pair.Key + "_" + Path.GetFileNameWithoutExtension(result.FileName) + ".txt");
                    result.Save(output, SaveFormat.Text);
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

मामलों और अनुप्रयोगों का उपयोग करें

वैश्विक संग्रह डिजिटल

बहुभाषी संग्रहालयों, समाचार पत्रों या कॉर्पोरेट रिकॉर्ड से पाठ का स्वचालित निष्कर्ष निकालें।

अंतर्राष्ट्रीय व्यापार ऑटोमेशन

OCR परिणामों को मिश्रित-भाषा अनुबंधों, बिलों, या मानव संसाधन दस्तावेजों से आपके वैश्विक ERP या कार्यप्रवाह में डालें।

बहुभाषी अनुपालन और खोज

पूर्ण पाठ खोज और कई भाषाओं में दस्तावेजों के माध्यम से अनुपालन जांच की अनुमति देता है।

आम चुनौतियां और समाधान

चुनौती 1: मिश्रित भाषा दस्तावेज

** समाधान:** पृष्ठ पर पता लगाने और प्रसंस्करण चलाएं, या यदि उपलब्ध है तो AUTO भाषा मोड का उपयोग करें।

चुनौती 2: विभिन्न छवि गुणवत्ता

** समाधान:** स्कैन को मानकीकृत करें, और छवि की गुणवत्ता को सामान्य करने के लिए प्री-प्रसंस्करण चलाएं।

चुनौती 3: प्रदर्शन Bottlenecks

समाधान: संभव के रूप में समानांतर प्रसंस्करण, और संसाधन उपयोग को अनुकूलित करें।

प्रदर्शन विचार

  • संसाधन दक्षता के लिए भाषा के अनुसार बैच नौकरियों को व्यवस्थित करें
  • संक्षेप में काम के साथ स्मृति / सीपीयू निगरानी
  • प्रत्येक बैच पर उत्पादन की पुष्टि करें

सर्वश्रेष्ठ अभ्यास

  • समस्याओं को हल करने के लिए भाषा फ़ोल्डर संगठित रखें
  • प्रत्येक भाषा के लिए एक नमूना बैच सत्यापित करें
  • नवीनतम भाषा सुधारों के लिए Aspose.OCR अपडेट करें
  • आयात और आउटपुट दोनों डेटा सुरक्षित करें

उन्नत परिदृश्य

परिदृश्य 1: JSON में बहुभाषी परिणामों का निर्यात

foreach (RecognitionResult result in results)
{
    result.Save(output.Replace(".txt", ".json"), SaveFormat.Json);
}

परिदृश्य 2: स्वचालित रूप से भाषा का पता लगाएं (यदि समर्थित है)

settings.Language = Language.Auto;

Conclusion

.NET के लिए Aspose.OCR आपको विभिन्न, बहुभाषी छवि संग्रहों से पाठ निष्कर्षण को स्वचालित करने की अनुमति देता है - वैश्विक डिजिटलकरण को तेज करता है और आपके फ़ाइलों को खोजा जा सकता है, खोजे जा सकते हैं, और कार्यप्रवाह में एकीकरण के लिये तैयार हो जाता है।

समर्थित भाषाओं और उन्नत सुझावों की एक पूर्ण सूची के लिए, देखें .NET API संदर्भ के लिए Aspose.OCR .

 हिंदी