چگونه متن را از PDF های اسکن شده با Aspose.OCR استخراج کنیم
استخراج متن از فایل های اسکن شده یا مبتنی بر تصویر PDF مورد استفاده برای نیاز به جریان های کار پیچیده و یا کار دستی گران است. با Aspose.OCR Scanned PDF به متن برای .NET، شما می توانید این فرآیند را به اتوماتیک تبدیل، تبدیل PDF ها به یک متن قابل جستجو و ویرایش با تنها چند خط کد.
مشکل دنیای واقعی
سازمان ها اغلب قراردادهای، گزارش ها و یا آرشیوها را به عنوان PDF های اسکن شده دریافت می کنند. کپی دستی متن یا جستجو در داخل این اسناد خسته کننده و با خطا است، آهسته سازگاری، ذخیره سازی و پروژه های تحول دیجیتال.
بررسی راه حل
Aspose.OCR برای .NET به شما اجازه می دهد تا فرآیند اسکن شده PDF ها را جمع آوری کنید – آنها را به متن یا PDF های قابل جستجو تبدیل کنید، اطلاعات را قابل دسترسی، قابل فهرست و آماده برای جریان های کاری دیجیتال ایجاد کنید.
پیش شرط
قبل از شروع، مطمئن شوید که:
- Visual Studio 2019 یا بالاتر
- .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
- Aspose.OCR برای .NET از NuGet
- آشنایی با C#
PM> Install-Package Aspose.OCR
پیاده سازی گام به گام
مرحله 1: نصب و تنظیم Aspose.OCR
اضافه کردن بسته NuGet و مرجع Aspose.OCR:
using Aspose.OCR;
مرحله 2: اضافه کردن فایل های PDF اسکن شده خود را
یک آیتم OcrInput برای ورودی PDF ایجاد کنید و فایل های PDF اسکن شده خود را اضافه کنید.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
مرحله 3: تنظیم تنظیمات شناختی
تنظیم زبان و سایر تنظیمات شناختی برای متناسب با اسناد شما.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
مرحله چهارم: فرآیند شناخت را اجرا کنید
متن را از PDF های اسکن شده خود تشخیص دهید:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
مرحله 5: ذخیره یا صادرات متن شناخته شده
متن شناخته شده را به فایل ها صادر کنید یا نتایج را در PDF های قابل جستجو تبدیل کنید.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
مرحله ششم: اضافه کردن خطا
به رسمیت شناختن در یک بلوک آزمایشی / ضبط برای استقامت.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
مرحله 7: بهینه سازی برای PDF های بزرگ یا چند صفحه ای
- پردازش PDFs صفحه به صفحه برای فایل های بزرگ
- استفاده از اسکن های با کیفیت بالا برای بهترین نتایج
- فرآیند بسته بندی به صورت موازی برای مجموعه های بزرگ
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
مرحله هشتم: نمونه کامل کار
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
استفاده از موارد و برنامه ها
آرشیو دیجیتال
تبدیل کل کتابخانه های اسناد اسکن شده به فایل های قابل جستجو و فهرست شده برای رعایت و مدیریت دانش.
مدیریت قانونی و قراردادی
شرایط و ضوابط قرارداد را از فایل های PDF برای بررسی، اتوماسیون یا امضای دیجیتال استخراج کنید.
Streamlined Document جستجو
امکان جستجوی سریع متن کامل در آرشیوها، پایگاه های دانش یا فایل های موردی.
چالش ها و راه حل های مشترک
چالش اول: اسکن های با کیفیت پایین یا ضعیف
** راه حل:** در صورت امکان از فیلترهای پیش پردازش و اسکن های با کیفیت بالا استفاده کنید.
چالش دوم: PDF های چند زبانه
** راه حل:** تنظیم زبان در تنظیمات شناختی یا فرآیند با چندین گزینه زبان.
چالش 3: فایل های PDF بسیار بزرگ
** راه حل: ** پردازش در بسته ها یا در هر صفحه، و نظارت بر استفاده از حافظه.
بررسی عملکرد
- استفاده از DPI مطلوب (300+) برای فایل های اسکن شده
- فرآیند Batch برای بهترین عبور
- قرار دادن اشیاء OCR و باز کردن فایل های بسته
بهترین شیوهها
- تایید خروجی OCR قبل از اتوماسیون بیشتر
- تنظیم و پشتیبان گیری فایل های PDF اصلی
- از SaveFormat مناسب برای جریان کار خود استفاده کنید.
- به طور منظم به روز رسانی Aspose.OCR برای ویژگی های جدید PDF
سناریوهای پیشرفته
سناریو 1: استخراج فقط صفحات خاص از یک PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
سناریو 2: صادرات به فرمت های چندگانه
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
نتیجه گیری
Aspose.OCR برای .NET به شما اجازه می دهد تا PDF های اسکن شده را به متن قابل اجرا و فایل های قابل جستجو تبدیل کنید – حذف ورودی دستی و دسترسی به اطلاعات به کل سازمان شما.
برای جزئیات و نمونه های بیشتر، نگاهی به Aspose.OCR برای .NET API مرجع .