چگونه متن را از PDF های اسکن شده با Aspose.OCR استخراج کنیم

استخراج متن از اسکن شده یا مبتنی بر تصویر PDF با Aspose.OCR اسکن PDF به متن برای .NET، شما می توانید این فرآیند را اتوماتیک کنید، تبدیل PDF ها به یک متن قابل جستجو و ویرایش با تنها چند خط کد.

مشکل دنیای واقعی

سازمان ها اغلب قراردادهای، گزارش ها و یا آرشیوها را به عنوان PDF های اسکن شده دریافت می کنند. کپی دستی متن یا جستجو در داخل این اسناد خسته کننده و با خطا است، آهسته سازگاری، ذخیره سازی و پروژه های تحول دیجیتال.

بررسی راه حل

Aspose.OCR برای .NET به شما اجازه می دهد تا فرآیند اسکن شده PDF ها را جمع آوری کنید – آنها را به متن یا PDF های قابل جستجو تبدیل کنید، اطلاعات را قابل دسترسی، قابل فهرست و آماده برای جریان های کاری دیجیتال ایجاد کنید.

پیش شرط

قبل از شروع، مطمئن شوید که:

Visual Studio 2019 یا بالاتر
.NET 6.0 یا بالاتر (یا .NET Framework 4.6.2+)
Aspose.OCR برای .NET از NuGet
آشنایی با C

PM> Install-Package Aspose.OCR

پیاده سازی گام به گام

مرحله 1: نصب و تنظیم Aspose.OCR

اضافه کردن بسته NuGet و مرجع Aspose.OCR:

using Aspose.OCR;

مرحله 2: اضافه کردن فایل های PDF اسکن شده خود را

یک آیتم OcrInput برای ورودی PDF ایجاد کنید و فایل های PDF اسکن شده خود را اضافه کنید.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

مرحله 3: تنظیم تنظیمات شناختی

تنظیم زبان و سایر تنظیمات شناختی برای متناسب با اسناد شما.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

مرحله چهارم: فرآیند شناخت را اجرا کنید

متن را از PDF های اسکن شده خود تشخیص دهید:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

مرحله 5: ذخیره یا صادرات متن شناخته شده

متن شناخته شده را به فایل ها صادر کنید یا نتایج را در PDF های قابل جستجو تبدیل کنید.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

مرحله ششم: اضافه کردن خطا

به رسمیت شناختن در یک بلوک آزمایشی / ضبط برای استقامت.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

مرحله 7: بهینه سازی برای PDF های بزرگ یا چند صفحه ای

پردازش PDFs صفحه به صفحه برای فایل های بزرگ
استفاده از اسکن های با کیفیت بالا برای بهترین نتایج
فرآیند بسته بندی به صورت موازی برای مجموعه های بزرگ

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

مرحله هشتم: نمونه کامل کار

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

استفاده از موارد و برنامه ها

آرشیو دیجیتال

تبدیل کل کتابخانه های اسناد اسکن شده به فایل های قابل جستجو و فهرست شده برای رعایت و مدیریت دانش.

مدیریت قانونی و قراردادی

شرایط و ضوابط قرارداد را از فایل های PDF برای بررسی، اتوماسیون یا امضای دیجیتال استخراج کنید.

Streamlined Document جستجو

امکان جستجوی سریع متن کامل در آرشیوها، پایگاه های دانش یا فایل های موردی.

چالش ها و راه حل های مشترک

چالش اول: اسکن های با کیفیت پایین یا ضعیف

راه حل: در صورت امکان از فیلترهای پیش پردازش و اسکن های با کیفیت بالا استفاده کنید.

چالش دوم: PDF های چند زبانه

راه حل: تنظیم زبان در تنظیمات شناختی یا فرآیند با چندین گزینه زبان.

چالش 3: فایل های PDF بسیار بزرگ

راه حل: پردازش در بسته ها یا در هر صفحه، و نظارت بر استفاده از حافظه.

بررسی عملکرد

استفاده از DPI مطلوب (300+) برای فایل های اسکن شده
فرآیند Batch برای بهترین عبور
قرار دادن اشیاء OCR و باز کردن فایل های بسته

بهترین شیوه‌ها

تایید خروجی OCR قبل از اتوماسیون بیشتر
تنظیم و پشتیبان گیری فایل های PDF اصلی
از SaveFormat مناسب برای جریان کار خود استفاده کنید
به طور منظم به روز رسانی Aspose.OCR برای ویژگی های جدید PDF

سناریوهای پیشرفته

سناریو 1: استخراج فقط صفحات خاص از یک PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

سناریو 2: صادرات به فرمت های چندگانه

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

نتیجه گیری

Aspose.OCR برای .NET به شما اجازه می دهد تا PDF های اسکن شده را به متن قابل اجرا و فایل های قابل جستجو تبدیل کنید – حذف ورودی دستی و دسترسی به اطلاعات به کل سازمان شما.

برای جزئیات و نمونه های بیشتر، نگاهی به Aspose.OCR برای .NET API مرجع .