پلاگین استخراج متن برای Aspose.PDF
Aspose.PDF Text Extractor Plugin برای .NET به توسعه دهندگان اجازه می دهد تا محتوای متنی را از فایل های PDF استخراج کنند - ساختار یافته، مسطح یا غیره.با سه حالت استخوان، ایده آل برای تبدیل اسناد، معدن داده ها، بهبود دسترسی و بیشتر است.
آخرین مقالات
Aspose.PDF Text Extractor Plugin ویژگی های کلیدی
روش های چندگانه استخراجبرای حداکثر انعطاف پذیری، متن را به صورت خالص (فرمت شده)، خام (به عنوان) یا صاف (خالص) استخراج کنید.
پردازش فایل های PDFاضافه کردن چندین فایل PDF برای استخراج همزمان و جریان های کار سریع.
تجزیه و تحلیل .NETAPI Straightforward – اضافه کردن به هر پروژه C# یا .NET برای راه اندازی سریع.
شروع با Aspose.PDF Text Extractor Plugin
تولید Aspose.PDF برای .NETاضافه کردن از طریق NuGet یا دانلود مجموعه ها به راه حل .NET خود را.
مجوز خود را تنظیم کنیدفعال برای پردازش و پشتیبانی نامحدود.
گزینه های استخراج را تنظیم کنیداستفاده
TextExtractor
وTextExtractorOptions
حالت استخراج را به عنوان مورد نظر تنظیم کنید (خالص، خام، صاف).مطالعه و بازگرداندن متننتایج استخراج و دسترسی را از طریق مجموعه کانتینر نتایج اجرا کنید.
مثال: استخراج متن از یک PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
مثال: استخراج متن از PDF های چندگانه
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
استفاده از موارد و افزونه ها
- PDF به TXT تبدیل: تبدیل اتوماتیک از PDF ها به متن صاف برای فهرست، جستجو، یا آرشیو.
- مخازن داده ها: داده های جدول، صورتحساب ها یا فرم ها را برای پردازش یا تجزیه و تحلیل بیشتر استخراج کنید.
- در دسترس بودن: محتوای قابل خواندن را برای خوانندگان صفحه نمایش یا فرمت های جایگزین آماده کنید.
- Batch Processing: استفاده از حالت های استخراج برای جریان های کاری پایین خاص (به عنوان مثال، پیش پردازش OCR، شناسایی واحد).
برای استخراج پیشرفته – مانند پردازش PDF های رمزگذاری شده، و یا سفارشی سازی خروجی متن – به ارجاع API رسمی مراجعه کنید.
بهترین روش ها
- همیشه حالت استخراج را انتخاب کنید که با نیازهای خروجی شما مطابقت دارد (فرمت، خام یا تمیز).
- برای مجموعه های بزرگ اسناد، فرآیند بسته بندی برای حداکثر عبور و به حداقل رساندن تلاش دستی.
- نتایج استخراج تست با PDF های دنیای واقعی برای اطمینان از دقت داده ها.
منابع مرتبط: