Како аутоматизовати извлачење података из ПДФ-а у .NET-у
Екстракција података из једног ПДФ-а је једноставна – али шта ако вам је потребно да извозите хиљаде обрасца испуњених ПдФ за аналитике, усклађеност или операције? Аспосе.Пдф.ФормЕкспортер Плугин омогућава .НЕТ програмерима и анализаторима да аутоматизују велику екстрактну формулу, извозећи податке у ЦСВ или Еццел за употребу доњег тока.
Зашто аутоматски извоз ПДФ обрасца?
- Спасите безброј сати: Ручно поновно уношење података је погрешно и споро.
- Омогућава аналитику у реалном времену: Агрегирајте клијентске, људске и финансијске податке одмах.
- Моћни радни токови: Интегрирајте се са BI алатима, извештавањем или даље обрадом у Екцелу.
Batch Input Setup: Priprema za ekstrakciju visoke količine
- ** Директни унос:** Ставите све ПДФ обрасце у једну фасциклу (на пример,
/Forms/Input/
). - Излазни датотеку: Одлучује о дестинационом фајлу — типично
.csv
или.xlsx
у Екцелу. - Плугин Иницијализација: Поставите
FormExporter
и опције за операцију бацх.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
Export Loop: Извлачење података из сваког ПДФ-а
Обрада сваког ПДФ-а и прикупљање вредности поља у ЦСВ (или Екцел):
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
Тип: Експортирани ЦСВ ће садржити једну реду по ПДФ-у, са колонама за свако поље обрасца.
Савети за управљање грешкама и аутоматизацију
- Поље које недостају: Ако ПДФ-а имају неконзистентне обрасце, преглед и претходно валидирана структура.
- ** Корумпирани датотеке:** Додајте обраду изузеци за пријављивање и прекидање непрочитаних ПДФ-а.
- Представљање: За хиљаде ПДФ-а, поделите посао у парцеле (на пример, 100 у једном тренутку) и спојите ЦСВ након тога.
- Име датотеке: Унесите име датог ПДФ са сваким изведеним редовима за праћеност.
Напредни сценарио
- Експорт у Екцел: Употреба
FormExporterValuesToExcelOptions
За.xlsx
излаза . - Процес из више фасцикла: Поново скенирају поддиректорије и комбинују резултате.
- Мешање података са другим изворима: Након извоза, повежите CSV податке са СКЛ или аналитичким цевима.
Коришћење случајева и најбоље праксе
- Анализа података: Аутоматска екстракција за анкете, набор или обрасци повратне информације.
- Операције: Бројни извозни рачуни, обрасци за људске ресурсе или извештаји о усклађености.
- Архивал: Експортирање података за складиштење, а затим флатент/оптимизација ПДФ-а са Оптимизација .
FAQ
**П: Могу ли експортирати податке о обрасцима из скенираних ПДФ-а?**Одговор: Подржава се само ПДФ са интерактивним (АцроФорм/КСФА) пољима. за скениране слике, прво покрените ОЦР, а затим користите плагине за екстракцију текста.
**П: Како ефикасно обрађујем стотине или хиљаде датотека?**А: Баццх датотеке у групама, користите паралелну обраду ако је могуће, и увек региструју грешке за фајлове који нису успели да извозе.