Как автоматизировать удаление данных из PDF-файлов в .NET
Экстракция данных из единого PDF проста — но что, если вам нужно экспортировать тысячи пополненных форм PDF для анализа, соответствия или операций? Aspose.PDF.FormExporter Plugin позволяет разработчикам .NET и аналитикам автоматизировать крупномасштабную экстрактную форму, экспорт данных в CSV или Excel для низкого потока использования.
Почему нужно автоматически экспортировать PDF-форма?
- Спасите бесчисленные часы: Ручное повторное введение данных является ошибочным и медленным.
- Смогут аналитики в режиме реального времени: Совместим данные клиентов, человеческих ресурсов или финансов сразу.
- Силовые рабочие потоки: Интегрируйте с инструментами BI, отчетом или дальнейшей обработкой в Excel.
Настройка ввода батареи: подготовка к экстракции высокого объема
- Directory Input: Поставьте все ваши PDF-форматы в одну папку (например,
/Forms/Input/
). - Выходный файл: Решит о целевом файле — типично
.csv
или.xlsx
и Excel . - Плугин Инициатива: Настройка
FormExporter
и варианты для батареи операций.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: Экстракция данных из каждого PDF
Обработка каждого PDF и сбор значений полей в CSV (или Excel):
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Тип: Экспортированный CSV будет содержать одну строку по PDF, с колоннами для каждого шаблона формы.
Управление ошибками и автоматизация
- Поле пропущения: Если PDF-файлы имеют несовместимые формы, обзор и предварительно валидированную структуру.
- Коррумпированные файлы: Добавить обработку исключений для записи и пропускать нечитаемые PDF-файлы.
- Перформация: Для тысяч PDF-файлов делайте работу на части (например, 100 в один раз) и затем сливайте CSV.
- Название файла: Зарегистрируйте фамильное имя PDF с каждым экспортируемым строком для отслеживаемости.
Развитые сценарии
- Экспорт в Excel: Использование
FormExporterValuesToExcelOptions
Для.xlsx
и выхода. - Процесс из множества папок: Повторно сканируйте субдиректории и сочетайте результаты.
- Смешайте данные с другими источниками: После экспорта соедините данные CSV с SQL или аналитическими трубами.
Используйте случаи и лучшие практики
- Анализ данных: Автоматическая экстракция для опросов, на борту или обратной связи.
- Операции: Групповые экспортные счета, формы HR или отчеты о соблюдении.
- ** Архив:** Экспорт формулирует данные для хранения, затем флатент/оптимизирует PDF с Оптимизатор .
FAQ
** Q: Можно ли экспортировать данные формы из сканированных PDF-файлов?**Ответ: Поддерживаются только PDF-файлы с интерактивными (AcroForm/XFA) полями. Для сканированных изображений запускайте OCR сначала, а затем используйте плагины текстового извлечения.
** Q: Как я эффективно обрабатываю сотни или тысячи файлов?**Ответ: Загрузите файлы в группы, используйте параллельную обработку, если это возможно, и всегда записывайте ошибки для файлов, которые не экспортируются.