Як автоматизувати витяг даних з PDF-файлів в .NET
Витяг даних з одного PDF є простим – але що робити, якщо вам потрібно експортувати тисячі заповнених форм PDF для аналізу, дотримання або операцій? Aspose.PDF.FormExporter Plugin дозволяє розробникам .NET і аналітикам автоматизувати великі витяги форм, експортуючи дані в CSV або Excel для нижчого потоку використання.
Чому потрібно автоматично експортувати PDF-форму?
- Зберегти безліч годин: Ручний повторний вхід даних є помилковим і повільним.
- **Відключити аналітику в реальному часі: ** Агрегація клієнтських, людських чи фінансових даних відразу.
- Підтримка робочих потоків: Інтеграція з BI-інструментами, доповіддю або подальшою обробкою в Excel.
Налаштування входу батареї: підготовка до екстракції високого обсягу
- Directory Input: Покладіть всі форми PDF в одну папку (наприклад,
/Forms/Input/
). - Вихідний файл: Вибирає дату призначення файлу — типово
.csv
або.xlsx
і Excel. - Плугин Ініціалізація: Налаштуйте
FormExporter
Використання варіантів для операцій батареї.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: Екстракція даних з кожного PDF
Переробляти кожен PDF і збирати значення поля в CSV (або Excel):
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Тип: Експортований CSV буде містити один ряд на PDF, з колонками для кожного поля форми.
Використання помилок та автоматизації
- Полі, що втрачаються: Якщо PDF-файли мають невідповідні форми, перегляд і заздалегідь затверджена структура.
- ** Корумповані файли:** Додайте обробку винятку для запису та пропуску нечистих PDF-файлів.
- Персонаж: Для тисяч PDF, розділіть роботу на штуки (наприклад, 100 одночасно) і поєднуйте CSV після цього.
- Назва файлу: Зареєструйте PDF-назва з кожним експортованим рядком для відстеження.
Розширені сценарії
- ** Експорт до Excel:** Використання
FormExporterValuesToExcelOptions
Для.xlsx
В результаті. - Процес з декількох папок: Повторно сканувати підрозділи і поєднувати результати.
- ** Змішайте дані з іншими джерелами: ** Після експорту, з’єднайте дани CSV з SQL або аналітичними трубопроводами.
Використання випадків і кращих практик
- Аналіз даних: Автоматична екстракція для опитувань, наборів або форм відгуків.
- Операції: Масові експортні рахунки, форми персоналу або звіти про дотримання.
- Архів: Експорт формує дані для зберігання, а потім флатен/оптимізує PDF-файли з Оптимізатор .
FAQ
**Q: Чи можу я експортувати дані форми з сканованих PDF-файлів?**Відповідь: Підтримуються тільки PDF-файли з інтерактивними (AcroForm/XFA) полями. для сканованих зображень, спочатку запустіть OCR, а потім використовуйте текстові екстракційні плагіни.
** Q: Як ефективно обробляти сотні або тисячі файлів?**Відповідь: Завантажуйте файли в групи, використовуйте паралельну обробку, якщо це можливо, і завжди записуйте помилки для файлів, які не експортуються.