Как автоматизировать удаление данных из PDF-файлов в .NET

Как автоматизировать удаление данных из PDF-файлов в .NET

Экстракция данных из единого PDF проста — но что, если вам нужно экспортировать тысячи пополненных форм PDF для анализа, соответствия или операций? Aspose.PDF.FormExporter Plugin позволяет разработчикам .NET и аналитикам автоматизировать крупномасштабную экстрактную форму, экспорт данных в CSV или Excel для низкого потока использования.

Почему нужно автоматически экспортировать PDF-форма?

  • Спасите бесчисленные часы: Ручное повторное введение данных является ошибочным и медленным.
  • Смогут аналитики в режиме реального времени: Совместим данные клиентов, человеческих ресурсов или финансов сразу.
  • Силовые рабочие потоки: Интегрируйте с инструментами BI, отчетом или дальнейшей обработкой в Excel.

Настройка ввода батареи: подготовка к экстракции высокого объема

  • Directory Input: Поставьте все ваши PDF-форматы в одну папку (например, /Forms/Input/).
  • Выходный файл: Решит о целевом файле — типично .csv или .xlsx и Excel .
  • Плугин Инициатива: Настройка FormExporter и варианты для батареи операций.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: Экстракция данных из каждого PDF

Обработка каждого PDF и сбор значений полей в CSV (или Excel):

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");

Тип: Экспортированный CSV будет содержать одну строку по PDF, с колоннами для каждого шаблона формы.

Управление ошибками и автоматизация

  • Поле пропущения: Если PDF-файлы имеют несовместимые формы, обзор и предварительно валидированную структуру.
  • Коррумпированные файлы: Добавить обработку исключений для записи и пропускать нечитаемые PDF-файлы.
  • Перформация: Для тысяч PDF-файлов делайте работу на части (например, 100 в один раз) и затем сливайте CSV.
  • Название файла: Зарегистрируйте фамильное имя PDF с каждым экспортируемым строком для отслеживаемости.

Развитые сценарии

  • Экспорт в Excel: Использование FormExporterValuesToExcelOptions Для .xlsx и выхода.
  • Процесс из множества папок: Повторно сканируйте субдиректории и сочетайте результаты.
  • Смешайте данные с другими источниками: После экспорта соедините данные CSV с SQL или аналитическими трубами.

Используйте случаи и лучшие практики

  • Анализ данных: Автоматическая экстракция для опросов, на борту или обратной связи.
  • Операции: Групповые экспортные счета, формы HR или отчеты о соблюдении.
  • ** Архив:** Экспорт формулирует данные для хранения, затем флатент/оптимизирует PDF с Оптимизатор .

FAQ

** Q: Можно ли экспортировать данные формы из сканированных PDF-файлов?**Ответ: Поддерживаются только PDF-файлы с интерактивными (AcroForm/XFA) полями. Для сканированных изображений запускайте OCR сначала, а затем используйте плагины текстового извлечения.

** Q: Как я эффективно обрабатываю сотни или тысячи файлов?**Ответ: Загрузите файлы в группы, используйте параллельную обработку, если это возможно, и всегда записывайте ошибки для файлов, которые не экспортируются.

 Русский