Как да автоматизирате извличането на данни от PDF файлове в .NET
Извличането на данни от един PDF е просто – но какво, ако трябва да експортирате хиляди попълнени с формуляр PDF за анализи, съответствие или операции? Aspose.PDF.FormExporter Plugin позволява на разработчиците и аналитиците на .NET да автоматизират широкомащабното извлечение на формуляри, изнасяйки данни в CSV или Excel за използване надолу.
Защо да изтеглите PDF формуляр?
- ** Спестете безброй часове: ** Ръчното повторно въвеждане на данни е предпазващо от грешки и бавно.
- **Осигуряване на анализи в реално време: ** Агрегиране на данни за клиенти, човешки ресурси или финанси незабавно.
- Силни работни потоци: Интегриране с BI инструменти, докладване или по-нататъшна обработка в Excel.
Batch Input Setup: Подготовка за екстракция с висок обем
- Directory Input: Поставете всички ваши PDF формуляри в една папка (напр.
/Forms/Input/
). - Изходния файл: Решава за целевия файл — типично
.csv
или.xlsx
и на Excel. - Плугин инициализация: Настройване на
FormExporter
Възможности за батерията.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: Извличане на данни от всеки PDF
Процесирайте всеки PDF и събирайте полеви стойности в CSV (или Excel):
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Тип: Експортираният CSV ще съдържа един ред на PDF, с колони за всяко поле с формуляр.
Управление на грешки и автоматизация
- Пропускащи полета: Ако PDF-те имат несъвместими формуляри, преглед и предварително валидирана структура.
- Корумпирани файлове: Добавете обработка на изключения, за да се регистрирате и да пропуснете нечитаеми PDF.
- Перформация: За хиляди PDF файлове, разделяйте работата на парчета (например 100 наведнъж) и след това сливайте CSV.
- Име на файла: Запишете името на PDF с всяка експортирана линия за проследяване.
Разширени сценарии
- ** Износ към Excel:** Използване
FormExporterValuesToExcelOptions
За.xlsx
в производството. - Процес от няколко папки: Повторно сканирайте поддиректориите и комбинирате резултатите.
- Смесване на данни с други източници: След износ, свържете CSV данните с SQL или аналитични тръбопроводи.
Използване на случаи и най-добри практики
- Анализ на данни: Автоматично извличане за проучвания, на борда или обратна връзка.
- Операции: Масивни износни фактури, HR формуляри или отчети за съответствие.
- ** Архив:** Износ формуляр данни за запазване, след това флатент/оптимизиране на PDF с Оптимизиране .
FAQ
**П: Мога ли да експортирам данни от скенираните PDF файлове?**A: Поддържа се само PDF с интерактивни (AcroForm/XFA) полета.За скенираните изображения, първо изпълнете OCR и след това използвайте плагини за извличане на текст.
**П: Как да обработвам стотици или хиляди файлове ефективно?**A: Бач файлове в групи, използвате паралелна обработка, ако е възможно, и винаги запис на грешки за файл, който не може да се експортира.