.NET で PDF からマルクフォームデータ抽出を自動化する方法
.NET で PDF からマルクフォームデータ抽出を自動化する方法
単一のPDFからデータを抽出することは簡単ですが、分析、遵守、または操作のために数千のフォームで満たされたPDFをエクスポートする必要がある場合はどうでしょうか? Aspose.PDF.FormExporter Plugin は、大規模なフォームの引き出しを自動化するために .NET 開発者やアナリストを可能にし、ダウンストリームの使用のために CSV または Excel にデータを入力します。
なぜPDFフォームを自動的に輸出するのか?
- 数え切れない時間を節約する: 手動データの再入力はエラー予防およびゆっくりです。
- **リアルタイムの分析を可能にします:**顧客、人事、または金融データを即座に統合します。
- パワーワークフロー: Excel で BI ツール、レポート、またはさらなる処理に統合します。
バッチ入力設定:高容量抽出の準備
- **直接入力:**すべてのPDFフォームを単一のフォルダーに置く(例えば、
/Forms/Input/
). - **出力ファイル:**目的地ファイルを決定する - 典型的に
.csv
または.xlsx
(エクセル ) - プラグインイニシアチブ: 設定する
FormExporter
バッチオペレーションのオプション
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
輸出ループ:各PDFからデータを抽出する
各 PDF を処理し、フィールド 値を CSV (または Excel ) に収集します。
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
タイプ: 輸出された CSV は PDF ごとに 1 行を含み、各フォーム フィールドにコラムが含まれます。
エラー処理と自動化のヒント
- ミッシングフィールド: PDF が不一致なフォーム、レビューおよび事前に有効化された構造を持っている場合。
- 腐敗したファイル: 例外処理を追加して、読み取れないPDFをログインして削除します。
- パフォーマンス: 何千ものPDFの場合は、仕事をバットに分けます(例えば、100を同時に)そしてその後、CSVを合成します。
- ファイル名: 追跡性のための各輸出行でPDFファイルネームをログインします。
高度なシナリオ
- Export to Excel: 使用
FormExporterValuesToExcelOptions
のために.xlsx
出力 - 複数のフォルダーからのプロセス: サブディレクトリを繰り返しスキャンし、結果を組み合わせる。
- 他の情報源とデータを組み合わせる: 輸出後、SQL または分析パイプラインで CSV データに接続します。
利用ケース&ベストプラクティス
- データ分析: 調査、上陸、またはフィードバックフォームのための自動抽出。
- 操作: 総輸出請求書、人事フォーム、または遵守レポート。
- アーカイブ: 保存のためのデータを輸出し、PDFをフラット/最適化する 最適化者 .
FAQ
**Q:スキャンされたPDFからフォームデータを輸出できますか?**A: インタラクティブ(AcroForm/XFA)フィールドを含むPDFのみがサポートされます. スキャンされた画像の場合は、まず OCR を実行し、テキスト抽出プラグインを使用します。
Q:何百、何千ものファイルを効率的に処理するか。A:グループにファイルをバッチし、可能な限りパラレル処理を行い、エクスポートに失敗したファイルのエラーを常に記録します。