كيفية استخراج النص من الصور المسح باستخدام Aspose.OCR

كيفية استخراج النص من الصور المسح باستخدام Aspose.OCR

فحص العقود أو الاتفاقيات أو صفحات الكتب أو السجلات القديمة عادة ما تنتج ملفات الصورة – النص غير قابل للتعديل.Aspose.OCR Scan to Text for .NET يتيح لك تلقائيًا استخراج النص المنظم والبحثي من أي وثيقة أو صورة مسح، وتوفير ساعات لا حصر لها من الإدخال اليدوي.

مشكلة العالم الحقيقي

في كثير من الأحيان يتم تخزين المستندات الورقية والكتب والأرشيفات كصور.إن استخراج محتوياتها لتدفقات العمل الرقمية أو الامتثال أو البحوث يمكن أن يكون بطيئاً أو مكلفًا أو عرضة للخطأ إذا تم ذلك يدوياً.

نظرة عامة على الحل

Aspose.OCR Scan to Text for .NET يحول صور الصفحات المطبوعة إلى نص قابل للاستخدام، وتتعامل مع عمود واحد، ومتعدد الأعمدة، والتخطيطات المعقدة.

المتطلبات

تأكد من أن لديك:

  • Visual Studio 2019 أو أحدث
  • .NET 6.0 أو أعلى (أو .Net Framework 4.6.2+)
  • Aspose.OCR لـ .NET من NuGet
  • معرفة أساسية C#
PM> Install-Package Aspose.OCR

تنفيذ خطوة بخطوة

الخطوة 1: تثبيت وتكوين Aspose.OCR

إضافة حزمة NuGet والمرجع Aspose.OCR:

using Aspose.OCR;

الخطوة 2: إضافة الصور المسحوقة الخاصة بك

تحميل ملفات صورة واحدة أو متعددة لمعالجة.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

الخطوة الثالثة: تعيين إعدادات التعرف

توضيح لغة الوثيقة والتخطيط حسب الحاجة.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

الخطوة 4: تشغيل عملية الاعتراف

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

الخطوة 5: حفظ أو معالجة النص المستخرج

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

الخطوة 6: إضافة خطأ التعامل

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

الخطوة 7: تحسين ترتيب المستندات

  • للحصول على الكتب أو المقالات، استخدم DetectAreasMode.DOCUMENT أو حاول DetektAreaModa.AUTO
  • الصور المسبقة المعالجة (الزراعة) للحصول على أفضل دقة
  • عملية التخزين للأرشيف الكبير
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

الخطوة الثامنة: نموذج كامل

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استخدام الحالات والتطبيقات

العقود والاتفاقيات الرقمية

تسريع الرقمنة الوثائق القانونية أو التجارية للبحث والأرشيف وتدفقات العمل الرقمية.

كتاب ومعالجة الأرشيف

تحويل صفحات الكتب أو السجلات التاريخية إلى تنسيقات قابلة للبحث والتحرير.

الامتثال واستخراج البيانات

إمكانية التحقق التلقائي من الامتثال، والتدقيق، أو استخراج النص من وثائق التراث.

التحديات والحلول المشتركة

التحدي الأول: فحوصات منخفضة الجودة أو النص المكسور

الحل: استخدم المعالجة المسبقة أو تحسين الصور لتحسين دقة OCR.

التحدي الثاني: تعديلات متعددة الأعمدة أو المعقدة

** الحل:** تعديل DetectAreasMode واختبار للحصول على أفضل التعامل مع التصميم.

التحدي الثالث: الرقمنة

** الحل:** استخدم معالجة الحزمة وإدارة الموارد للوظائف على نطاق واسع.

اعتبارات الأداء

  • عملية التردد من أجل السرعة والوساطة
  • استخدم صور مصدر جيدة الجودة
  • توفير أدوات OCR بعد الاستخدام

أفضل الممارسات

  • تأكيد النص المستخرج دائما قبل الأتمتة أو الأرشيف
  • استخدم إعدادات التعرف الصحيحة لنوع المستند
  • نسخة احتياطية من الفحص الأصلي للمراجعة
  • نتائج اختبار OCR على عينة قبل الإنتاج

سيناريوهات متقدمة

السيناريو 1: استخراج مستندات متعددة اللغات

settings.Language = Language.French;

سيناريو 2: التصدير إلى JSON للتكامل

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

استنتاجات

Aspose.OCR Scan to Text for .NET هو أسرع طريقة لتحويل الصور والوثائق الورقية التي تم فحصها إلى نص قابل للاستخدام ويمكن تحريرها – مثالية للمشاريع القانونية والأكاديمية أو المؤسسية.

انظر المزيد من الأمثلة والتفاصيل التقنية في أرشيف الوسم : .NET API Reference .

 عربي