پلاگین استخراج متن برای Aspose.PDF
Aspose.PDF Text Extractor Plugin برای .NET به توسعه دهندگان اجازه می دهد تا محتوای متنی را از فایل های PDF استخراج کنند - ساختار یافته، مسطح یا غیره.با سه حالت استخوان، ایده آل برای تبدیل اسناد، معدن داده ها، بهبود دسترسی و بیشتر است.
آخرین مقالات
Aspose.PDF Text Extractor Plugin ویژگی های کلیدی
** روش های چندگانه استخراج*برای حداکثر انعطاف پذیری، متن را به صورت خالص (فرمت شده)، خام (به عنوان) یا صاف (خالص) استخراج کنید.
** پردازش فایل های PDF*اضافه کردن چندین فایل PDF برای استخراج همزمان و جریان های کار سریع.
تجزیه و تحلیل .NETAPI Straightforward – اضافه کردن به هر پروژه C# یا .NET برای راه اندازی سریع.
** شروع با Aspose.PDF Text Extractor Plugin**
تولید Aspose.PDF برای .NETاضافه کردن از طریق NuGet یا دانلود مجموعه ها به راه حل .NET خود را.
** مجوز خود را تنظیم کنید**فعال برای پردازش و پشتیبانی نامحدود.
** گزینه های استخراج را تنظیم کنید**استفاده
TextExtractor
وTextExtractorOptions
حالت استخراج را به عنوان مورد نظر تنظیم کنید (خالص، خام، صاف).مطالعه و بازگرداندن متننتایج استخراج و دسترسی را از طریق مجموعه کانتینر نتایج اجرا کنید.
مثال: استخراج متن از یک PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
مثال: استخراج متن از PDF های چندگانه
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
استفاده از موارد و افزونه ها
- PDF به TXT تبدیل: تبدیل اتوماتیک از PDF ها به متن صاف برای فهرست، جستجو، یا آرشیو.
- مخازن داده ها: داده های جدول، صورتحساب ها یا فرم ها را برای پردازش یا تجزیه و تحلیل بیشتر استخراج کنید.
- در دسترس بودن: محتوای قابل خواندن را برای خوانندگان صفحه نمایش یا فرمت های جایگزین آماده کنید.
- Batch Processing: استفاده از حالت های استخراج برای جریان های کاری پایین خاص (به عنوان مثال، پیش پردازش OCR، شناسایی واحد).
برای استخراج پیشرفته – مانند پردازش PDF های رمزگذاری شده، و یا سفارشی سازی خروجی متن – به ارجاع API رسمی مراجعه کنید.
* بهترین روش ها*
- همیشه حالت استخراج را انتخاب کنید که با نیازهای خروجی شما مطابقت دارد (فرمت، خام یا تمیز).
- برای مجموعه های بزرگ اسناد، فرآیند بسته بندی برای حداکثر عبور و به حداقل رساندن تلاش دستی.
- نتایج استخراج تست با PDF های دنیای واقعی برای اطمینان از دقت داده ها.
منابع مرتبط: