چگونه متن را از تصاویر اسکن شده با Aspose.OCR استخراج کنیم

چگونه متن را از تصاویر اسکن شده با Aspose.OCR استخراج کنیم

اسکن قراردادهای، موافقت نامه ها، صفحات کتاب یا سوابق قدیمی معمولاً فایل های تصویر را تولید می کند – متن غیر قابل ویرایش. ASPOSE.OCR Scan to Text for .NET به شما اجازه می دهد تا استخراج متن ساختار یافته و قابل جستجو را از هر سند یا عکس اسکریپت کنید و ساعت های بی شماری از ورودی دستی را ذخیره کنید.

مشکل دنیای واقعی

اسناد کاغذی، کتاب ها و آرشیوها اغلب به عنوان تصاویر ذخیره می شوند. استخراج محتوای آنها برای جریان های کار دیجیتال، انطباق یا تحقیق می تواند آهسته، گران و در معرض اشتباه باشد اگر به صورت دستی انجام شود.

بررسی راه حل

Aspose.OCR Scan to Text for .NET تصاویری از صفحات چاپ شده را به متن قابل استفاده تبدیل می کند، با یک ستون، چند ستون و طرح های پیچیده کار می کنند. جریان کار برای دیجیتالی سازی قراردادهای، کتاب ها، سوابق و اسناد کسب و کار مناسب برای استفاده مدرن است.

پیش شرط

اطمینان حاصل کنید که:

  • Visual Studio 2019 یا بالاتر
  • .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
  • Aspose.OCR برای .NET از NuGet
  • آشنایی با C#
PM> Install-Package Aspose.OCR

پیاده سازی گام به گام

مرحله 1: نصب و تنظیم Aspose.OCR

اضافه کردن بسته NuGet و مرجع Aspose.OCR:

using Aspose.OCR;

مرحله دوم: تصاویر اسکن شده خود را اضافه کنید

فایل های تک یا چند تصویر را برای پردازش بارگذاری کنید.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

مرحله 3: تنظیم تنظیمات شناختی

متن برای زبان و طرح اسناد در صورت لزوم.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

مرحله چهارم: فرآیند شناخت را اجرا کنید

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

مرحله 5: ذخیره یا پردازش متن استخراج شده

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

مرحله ششم: اضافه کردن خطا

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

مرحله 7: بهینه سازی طرح های اسناد

  • برای کتاب ها یا مقالات، از DetectAreasMode.DOCUMENT استفاده کنید و یا سعی کنید DetecTrea.AUTO را امتحان کنید.
  • تصاویر پیش پردازش (نبات، دکوراسیون) برای بهترین دقت
  • فرآیند بسته بندی برای آرشیو های بزرگ
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

مرحله هشتم: نمونه کامل

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استفاده از موارد و برنامه ها

قرارداد و توافق دیجیتالی سازی

به سرعت اسناد قانونی یا کسب و کار را برای جستجوی، آرشیو و جریان های کاری دیجیتال دیگیتالی کنید.

کتاب و آرشیو پردازش

تبدیل صفحات کتاب یا سوابق تاریخی به فرمت های قابل جستجو و ویرایش.

سازگاری و استخراج داده ها

امکان بررسی اتوماتیک انطباق، حسابرسی و یا استخراج متن از اسناد میراث.

چالش ها و راه حل های مشترک

چالش اول: اسکن های با کیفیت پایین یا متن خرد شده

** راه حل:** استفاده از پیش پردازش و یا بهبود تصاویر برای دقت بهتر OCR.

چالش ۲: طرح های چند ستون یا پیچیده

** راه حل:** تنظیم DetectAreasMode و تست برای بهترین مدیریت طرح.

چالش سوم: دیجیتالی شدن باتچ

** راه حل:** از پردازش بسته و مدیریت منابع برای کارهای بزرگ استفاده کنید.

بررسی عملکرد

  • فرآیند باتچ برای سرعت و مقیاس پذیری
  • استفاده از تصاویر منبع خوب
  • استفاده از اشیاء OCR پس از استفاده

بهترین شیوه‌ها

  • همیشه قبل از اتوماسیون یا آرشیو، متن استخراج شده را تأیید کنید
  • استفاده از تنظیمات تشخیص صحیح برای نوع سند
  • پشتیبان گیری اسکن های اصلی برای مرجع
  • نتایج آزمایش OCR در یک بسته نمونه قبل از تولید

سناریوهای پیشرفته

مرحله اول: استخراج اسناد چند زبانه

settings.Language = Language.French;

سناریو 2: صادرات به JSON برای ادغام

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

نتیجه گیری

Aspose.OCR Scan to Text for .NET سریع ترین راه برای تبدیل تصاویر و اسناد کاغذی اسکن شده به متن قابل استفاده و قابل ویرایش است – ایده آل برای پروژه های قانونی، علمی یا کسب و کار.

بیشتر نمونه ها و جزئیات فنی را در Aspose.OCR برای .NET API مرجع .

 فارسی