پلاگین استخراج متن برای Aspose.PDF

Aspose.PDF Text Extractor Plugin برای .NET به توسعه دهندگان اجازه می دهد تا محتوای متنی را از فایل های PDF استخراج کنند - ساختار یافته، مسطح یا غیره.با سه حالت استخوان، ایده آل برای تبدیل اسناد، معدن داده ها، بهبود دسترسی و بیشتر است.

آخرین مقالات

Aspose.PDF Text Extractor Plugin ویژگی های کلیدی

  • ** روش های چندگانه استخراج*برای حداکثر انعطاف پذیری، متن را به صورت خالص (فرمت شده)، خام (به عنوان) یا صاف (خالص) استخراج کنید.

  • ** پردازش فایل های PDF*اضافه کردن چندین فایل PDF برای استخراج همزمان و جریان های کار سریع.

  • تجزیه و تحلیل .NETAPI Straightforward – اضافه کردن به هر پروژه C# یا .NET برای راه اندازی سریع.

** شروع با Aspose.PDF Text Extractor Plugin**

  • تولید Aspose.PDF برای .NETاضافه کردن از طریق NuGet یا دانلود مجموعه ها به راه حل .NET خود را.

  • ** مجوز خود را تنظیم کنید**فعال برای پردازش و پشتیبانی نامحدود.

  • ** گزینه های استخراج را تنظیم کنید**استفاده TextExtractor و TextExtractorOptions حالت استخراج را به عنوان مورد نظر تنظیم کنید (خالص، خام، صاف).

  • مطالعه و بازگرداندن متننتایج استخراج و دسترسی را از طریق مجموعه کانتینر نتایج اجرا کنید.

مثال: استخراج متن از یک PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

مثال: استخراج متن از PDF های چندگانه

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

استفاده از موارد و افزونه ها

  • PDF به TXT تبدیل: تبدیل اتوماتیک از PDF ها به متن صاف برای فهرست، جستجو، یا آرشیو.
  • مخازن داده ها: داده های جدول، صورتحساب ها یا فرم ها را برای پردازش یا تجزیه و تحلیل بیشتر استخراج کنید.
  • در دسترس بودن: محتوای قابل خواندن را برای خوانندگان صفحه نمایش یا فرمت های جایگزین آماده کنید.
  • Batch Processing: استفاده از حالت های استخراج برای جریان های کاری پایین خاص (به عنوان مثال، پیش پردازش OCR، شناسایی واحد).

برای استخراج پیشرفته – مانند پردازش PDF های رمزگذاری شده، و یا سفارشی سازی خروجی متن – به ارجاع API رسمی مراجعه کنید.

* بهترین روش ها*

  • همیشه حالت استخراج را انتخاب کنید که با نیازهای خروجی شما مطابقت دارد (فرمت، خام یا تمیز).
  • برای مجموعه های بزرگ اسناد، فرآیند بسته بندی برای حداکثر عبور و به حداقل رساندن تلاش دستی.
  • نتایج استخراج تست با PDF های دنیای واقعی برای اطمینان از دقت داده ها.

منابع مرتبط:

 فارسی