Як автоматизувати витяг даних з PDF-файлів в .NET

Як автоматизувати витяг даних з PDF-файлів в .NET

Витяг даних з одного PDF є простим – але що робити, якщо вам потрібно експортувати тисячі заповнених форм PDF для аналізу, дотримання або операцій? Aspose.PDF.FormExporter Plugin дозволяє розробникам .NET і аналітикам автоматизувати великі витяги форм, експортуючи дані в CSV або Excel для нижчого потоку використання.

Чому потрібно автоматично експортувати PDF-форму?

  • Зберегти безліч годин: Ручний повторний вхід даних є помилковим і повільним.
  • **Відключити аналітику в реальному часі: ** Агрегація клієнтських, людських чи фінансових даних відразу.
  • Підтримка робочих потоків: Інтеграція з BI-інструментами, доповіддю або подальшою обробкою в Excel.

Налаштування входу батареї: підготовка до екстракції високого обсягу

  • Directory Input: Покладіть всі форми PDF в одну папку (наприклад, /Forms/Input/).
  • Вихідний файл: Вибирає дату призначення файлу — типово .csv або .xlsx і Excel.
  • Плугин Ініціалізація: Налаштуйте FormExporter Використання варіантів для операцій батареї.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: Екстракція даних з кожного PDF

Переробляти кожен PDF і збирати значення поля в CSV (або Excel):

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");

Тип: Експортований CSV буде містити один ряд на PDF, з колонками для кожного поля форми.

Використання помилок та автоматизації

  • Полі, що втрачаються: Якщо PDF-файли мають невідповідні форми, перегляд і заздалегідь затверджена структура.
  • ** Корумповані файли:** Додайте обробку винятку для запису та пропуску нечистих PDF-файлів.
  • Персонаж: Для тисяч PDF, розділіть роботу на штуки (наприклад, 100 одночасно) і поєднуйте CSV після цього.
  • Назва файлу: Зареєструйте PDF-назва з кожним експортованим рядком для відстеження.

Розширені сценарії

  • ** Експорт до Excel:** Використання FormExporterValuesToExcelOptions Для .xlsx В результаті.
  • Процес з декількох папок: Повторно сканувати підрозділи і поєднувати результати.
  • ** Змішайте дані з іншими джерелами: ** Після експорту, з’єднайте дани CSV з SQL або аналітичними трубопроводами.

Використання випадків і кращих практик

  • Аналіз даних: Автоматична екстракція для опитувань, наборів або форм відгуків.
  • Операції: Масові експортні рахунки, форми персоналу або звіти про дотримання.
  • Архів: Експорт формує дані для зберігання, а потім флатен/оптимізує PDF-файли з Оптимізатор .

FAQ

**Q: Чи можу я експортувати дані форми з сканованих PDF-файлів?**Відповідь: Підтримуються тільки PDF-файли з інтерактивними (AcroForm/XFA) полями. для сканованих зображень, спочатку запустіть OCR, а потім використовуйте текстові екстракційні плагіни.

** Q: Як ефективно обробляти сотні або тисячі файлів?**Відповідь: Завантажуйте файли в групи, використовуйте паралельну обробку, якщо це можливо, і завжди записуйте помилки для файлів, які не експортуються.

 Українська