چگونه به اتوماسیون استخراج داده های فرم جمعی از فایل های PDF در .NET
استخراج داده ها از یک واحد PDF این ساده است – اما چه اتفاقی می افتد اگر شما نیاز به صادرات هزاران فرم پر PDF برای تجزیه و تحلیل، انطباق، و یا عملیات؟ Aspose.PDF.FormExporter Plugin اجازه می دهد .NET توسعه دهندگان و کارشناسان برای اتوماسیون استخراج فرم در مقیاس بزرگ، صادرات داده ها به CSV یا اکسل برای استفاده پایین.
چرا باید فرم PDF را به صورت اتوماتیک وارد کنیم?
- ساعت های بی شماری صرفه جویی کنید: بازگرداندن داده های دستی به صورت خطا و آهسته است.
- امکان تجزیه و تحلیل در زمان واقعی: اطلاعات مشتری، منابع انسانی یا مالی را بلافاصله جمع آوری کنید.
- جریان های کار قدرت: با ابزارهای BI، گزارش یا پردازش بیشتر در اکسل ادغام کنید.
Batch Input Setup: آماده سازی برای استخراج حجم بالا
- درک مستقیم: تمام فرم های PDF خود را در یک پوشه قرار دهید (به عنوان مثال.,
/Forms/Input/
). - فایلهای خروجی: تصمیم گیری در مورد فایل مقصد – به طور معمول
.csv
یا.xlsx
(در اکسل). - Plugin Initialization: تنظیم کنید
FormExporter
و گزینه های عملیات باتچ.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Loop صادرات: استخراج داده ها از هر PDF
پردازش هر PDF و جمع آوری ارزش های میدان به CSV (یا Excel):
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
نمونه: CSV صادر شده شامل یک ردیف در هر PDF خواهد بود، با ستون ها برای هر زمینه فرم.
خطای مدیریت و اتوماسیون
- میدان های گمشده: اگر فایل های PDF دارای فرم های نامناسب، بررسی و ساختار پیش تأیید شده باشند.
- فایلهای فاسد: اضافه کردن دستورالعمل استثنایی برای ثبت نام و حذف PDF های غیر قابل خواندن.
- عملکرد: برای هزاران PDF، کار را به دسته ها تقسیم کنید (به عنوان مثال، 100 در یک زمان) و پس از آن CSV ها را ترکیب کنید.
- نام فایل: نام فایل PDF را با هر ردیف صادر شده برای ردیابی وارد کنید.
سناریوهای پیشرفته
- تصدیق به Excel: استفاده از
FormExporterValuesToExcelOptions
برای.xlsx
خروجی. - فرآیند از چندین پوشه: اسکن مجدد زیر راهنمایی ها و ترکیب نتایج.
- مجموع داده ها با منابع دیگر: پس از صادرات، داده های CSV را با SQL یا لوله های تجزیه و تحلیل ترکیب کنید.
استفاده از موارد و بهترین شیوه ها
- تجزیه و تحلیل داده ها: استخراج اتوماتیک برای نظرسنجی ها، پرتاب یا فرم های بازخورد.
- عملیات: صورتحساب های صادرات جمعی، فرم های منابع انسانی یا گزارش های انطباق.
- آرشیو: فرم صادرات داده ها را برای ذخیره سازی، سپس فلتنت / بهینه سازی PDF ها با بهینهساز .
FAQ
**Q: آیا می توانم داده های فرم را از PDF های اسکن شده صادر کنم?**A: فقط فایل های PDF با زمینه های تعاملی (AcroForm/XFA) پشتیبانی می شود.برای تصاویر اسکن شده، ابتدا OCR را اجرا کنید و سپس از پلاگین های استخراج متن استفاده کنید.
**س: چگونه می توانم صدها یا هزاران فایل را به طور موثر پردازش کنم?**A: فایل ها را در گروه ها جمع کنید، در صورت امکان از پردازش موازی استفاده کنید و همیشه برای فایل هایی که نتوانسته اند صادرات شوند، خطاها را ثبت کنید.