.NET で PDF からマルクフォームデータ抽出を自動化する方法

.NET で PDF からマルクフォームデータ抽出を自動化する方法

単一のPDFからデータを抽出することは簡単ですが、分析、遵守、または操作のために数千のフォームで満たされたPDFをエクスポートする必要がある場合はどうでしょうか? Aspose.PDF.FormExporter Plugin は、大規模なフォームの引き出しを自動化するために .NET 開発者やアナリストを可能にし、ダウンストリームの使用のために CSV または Excel にデータを入力します。

なぜPDFフォームを自動的に輸出するのか?

  • 数え切れない時間を節約する: 手動データの再入力はエラー予防およびゆっくりです。
  • **リアルタイムの分析を可能にします:**顧客、人事、または金融データを即座に統合します。
  • パワーワークフロー: Excel で BI ツール、レポート、またはさらなる処理に統合します。

バッチ入力設定:高容量抽出の準備

  • **直接入力:**すべてのPDFフォームを単一のフォルダーに置く(例えば、 /Forms/Input/).
  • **出力ファイル:**目的地ファイルを決定する - 典型的に .csv または .xlsx (エクセル )
  • プラグインイニシアチブ: 設定する FormExporter バッチオペレーションのオプション
using Aspose.Pdf.Plugins;
using System.IO;

// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");

// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";

// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv)); 

輸出ループ:各PDFからデータを抽出する

各 PDF を処理し、フィールド 値を CSV (または Excel ) に収集します。

foreach (var file in pdfFiles)
{
    exportOptions.AddInput(new FileDataSource(file));
}

// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");

タイプ: 輸出された CSV は PDF ごとに 1 行を含み、各フォーム フィールドにコラムが含まれます。

エラー処理と自動化のヒント

  • ミッシングフィールド: PDF が不一致なフォーム、レビューおよび事前に有効化された構造を持っている場合。
  • 腐敗したファイル: 例外処理を追加して、読み取れないPDFをログインして削除します。
  • パフォーマンス: 何千ものPDFの場合は、仕事をバットに分けます(例えば、100を同時に)そしてその後、CSVを合成します。
  • ファイル名: 追跡性のための各輸出行でPDFファイルネームをログインします。

高度なシナリオ

  • Export to Excel: 使用 FormExporterValuesToExcelOptions のために .xlsx 出力
  • 複数のフォルダーからのプロセス: サブディレクトリを繰り返しスキャンし、結果を組み合わせる。
  • 他の情報源とデータを組み合わせる: 輸出後、SQL または分析パイプラインで CSV データに接続します。

利用ケース&ベストプラクティス

  • データ分析: 調査、上陸、またはフィードバックフォームのための自動抽出。
  • 操作: 総輸出請求書、人事フォーム、または遵守レポート。
  • アーカイブ: 保存のためのデータを輸出し、PDFをフラット/最適化する 最適化者 .

FAQ

**Q:スキャンされたPDFからフォームデータを輸出できますか?**A: インタラクティブ(AcroForm/XFA)フィールドを含むPDFのみがサポートされます. スキャンされた画像の場合は、まず OCR を実行し、テキスト抽出プラグインを使用します。

Q:何百、何千ものファイルを効率的に処理するか。A:グループにファイルをバッチし、可能な限りパラレル処理を行い、エクスポートに失敗したファイルのエラーを常に記録します。

 日本語