Kā automātiski izņemt datus no PDF veidlapām .NET

Kā automātiski izņemt datus no PDF veidlapām .NET

Datu ekstrakcija no viena PDF ir vienkārša – bet ko darīt, ja jums ir nepieciešams eksportēt tūkstošiem veidlapas aizpildītu PDF analīzes, atbilstības vai operācijām? Aspose.PDF.FormExporter Plugin ļauj .NET izstrādātājiem un analītiķiem automātiski izgatavot plašu veidlapu, eksportējot datus uz CSV vai Excel lejupslīdes lietošanai.

Kāpēc automātiski eksportēt PDF veidlapu?

  • Iegūstiet neskaitāmas stundas: Manuāla datu pārslēgšana ir kļūdaino un lēna.
  • Iegūstiet reālā laika analīzi: Vienlaikus apvienojiet klienta, HR vai finanšu datus.
  • Power Workflows: Integrēt ar BI rīkiem, ziņošanu vai turpmāku apstrādi Excel.

Batch Input Setup: sagatavošana augsta tilpuma ekstrakcijai

  • Directory Input: Ievietojiet visus PDF veidlapas vienā mapē (piemēram, /Forms/Input/).
  • Izceļošanas fails: Lēmums par galamērķa failu — parasti .csv vai .xlsx un Excel.
  • Plugin Initialization: Iestatīt FormExporter un opcijas batch operācijai.
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

Export Loop: izņemot datus no katras PDF

Izveidojiet katru PDF un apkopojiet lauka vērtības CSV (vai Excel):

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");

Tip: Eksportētais CSV satur vienu rindas uz PDF, ar kolonnām katram veidlapas laukumam.

kļūdu risināšanas un automācijas ieteikumi

  • Missing laukumi: Ja PDF ir nesaskaņas veidlapas, pārskats un iepriekš apstiprināta struktūra.
  • Korrupti faili: Pievienojiet izņēmuma apstrādi, lai ierakstītu un izslēgtu neatlasītos PDF failus.
  • Darbība: Tūkstošiem PDF, sadalīt darbu gabalos (piemēram, 100 vienlaicīgi) un apvienot CSV pēc tam.
  • File nosaukums: Reģistrējiet PDF failu nosaukumu ar katru eksportēto randi, lai nodrošinātu izsekojamību.

Augstākie scenāriji

  • Export uz Excel: Lietojiet FormExporterValuesToExcelOptions par .xlsx Izdevējs .
  • Process no vairākiem failiem: Atkārtoti skenē subdirektorijas un apvieno rezultātus.
  • Datu apvienošana ar citiem avotiem: Pēc eksporta pievienojiet CSV datus ar SQL vai analīzes caurulēm.

Izmantojiet gadījumus un labākās prakses

  • Datu analīze: Automātiskā ekstrakcija aptaujām, uzbūvēm vai atsauksmes veidlapām.
  • Operācijas: Bulk eksporta rēķini, HR veidlapas vai atbilstības ziņojumi.
  • Arhīvs: Eksportēt datus uzglabāšanai, pēc tam plānot / optimizēt PDF ar Optimizer .

FAQ

**Q: Vai es varu eksportēt veidlapas datus no skenētiem PDF?**A: Tiek atbalstīti tikai PDF ar interaktīviem (AcroForm/XFA) laukiem. skenētiem attēliem vispirms izlaidiet OCR un pēc tam izmantojiet teksta ekstrakcijas plugins.

**Q: Kā es efektīvi apstrādāju simtiem vai tūkstošiem failu?**A: Sāciet failus grupās, ja iespējams, izmantojiet paralēli apstrādi un vienmēr ierakstiet kļūdas failām, kas nav eksporti.

 Latviski