چگونه به اتوماسیون استخراج داده های فرم جمعی از فایل های PDF در .NET

چگونه به اتوماسیون استخراج داده های فرم جمعی از فایل های PDF در .NET

استخراج داده ها از یک PDF ساده است – اما اگر شما نیاز به صادرات هزاران PDF پر از فرم برای تجزیه و تحلیل، انطباق، و یا عملیات؟ Aspose.PDF.FormExporter Plugin توسعه دهندگان .NET را قادر می سازد تا به اتوماسیون جمع آوری فرم در مقیاس بزرگ، صادرات داده به CSV یا اکسل برای استفاده از جریان پایین.

چرا باید فرم PDF را به صورت اتوماتیک وارد کنیم؟

  • ** ساعت های بی شماری صرفه جویی کنید: ** بازگرداندن داده های دستی به صورت خطا و آهسته است.
  • ** امکان تجزیه و تحلیل در زمان واقعی: ** اطلاعات مشتری، منابع انسانی یا مالی را بلافاصله جمع آوری کنید.
  • ** جریان های کار قدرت:** با ابزارهای BI، گزارش یا پردازش بیشتر در اکسل ادغام کنید.

Batch Input Setup: آماده سازی برای استخراج حجم بالا

  • درک مستقیم: تمام فرم های PDF خود را در یک پوشه قرار دهید (به عنوان مثال، /Forms/Input/).
  • فایلهای خروجی: تصمیم گیری در مورد فایل مقصد – به طور معمول .csv یا .xlsx در اکسل .
  • Plugin Initialization: تنظیم کنید FormExporter و گزینه های عملیات باتچ.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Loop صادرات: استخراج داده ها از هر PDF

پردازش هر PDF و جمع آوری ارزش های میدان به CSV (یا Excel):

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");

نمونه: CSV صادر شده شامل یک ردیف در هر PDF خواهد بود، با ستون ها برای هر زمینه فرم.

خطای مدیریت و اتوماسیون

  • ** میدان های گمشده: ** اگر فایل های PDF دارای فرم های نامناسب، بررسی و ساختار پیش تأیید شده باشند.
  • فایلهای فاسد: اضافه کردن دستورالعمل استثنایی برای ثبت نام و حذف PDF های غیر قابل خواندن.
  • ** عملکرد:** برای هزاران PDF، کار را به دسته ها تقسیم کنید (به عنوان مثال، 100 در یک زمان) و پس از آن CSV ها را ترکیب کنید.
  • نام فایل: نام فایل PDF را با هر ردیف صادر شده برای ردیابی وارد کنید.

سناریوهای پیشرفته

  • تصدیق به Excel: استفاده از FormExporterValuesToExcelOptions برای .xlsx خروجی
  • فرآیند از چندین پوشه: اسکن مجدد زیر راهنمایی ها و ترکیب نتایج.
  • مجموع داده ها با منابع دیگر: پس از صادرات، داده های CSV را با SQL یا لوله های تجزیه و تحلیل ترکیب کنید.

استفاده از موارد و بهترین شیوه ها

  • ** تجزیه و تحلیل داده ها: ** استخراج اتوماتیک برای نظرسنجی ها، پرتاب یا فرم های بازخورد.
  • ** عملیات:** صورتحساب های صادرات جمعی، فرم های منابع انسانی یا گزارش های انطباق.
  • آرشیو: فرم صادرات داده ها را برای ذخیره سازی، سپس فلتنت / بهینه سازی PDF ها با بهینه‌ساز .

FAQ

**Q: آیا می توانم داده های فرم را از PDF های اسکن شده صادر کنم؟**A: فقط فایل های PDF با زمینه های تعاملی (AcroForm/XFA) پشتیبانی می شود.برای تصاویر اسکن شده، ابتدا OCR را اجرا کنید و سپس از پلاگین های استخراج متن استفاده کنید.

س: چگونه می توانم صدها یا هزاران فایل را به طور موثر پردازش کنم؟A: فایل ها را در گروه ها جمع کنید، در صورت امکان از پردازش موازی استفاده کنید و همیشه برای فایل هایی که نتوانسته اند صادرات شوند، خطاها را ثبت کنید.

 فارسی