NET で PDF からマルクフォームデータ抽出を自動化する方法
NET で PDF からマルクフォームデータ抽出を自動化する方法
単一のデータからデータを抽出する PDF アナリティクス、コンプライアンス、または操作のための数千のフォームで満たされたPDFを輸出する必要がある場合はどうでしょうか? Aspose.PDF.FormExporter Plugin は、大規模なフォーム抽出を自動化するために .NET 開発者やアナリストを可能にします CSV ダウンストリーム使用のためのExcel.
なぜPDFフォームを自動的に輸出するのか?
- 数え切れない時間を節約する: 手動データの再入力はエラー予防およびゆっくりです.
- **リアルタイムの分析を可能にします:**顧客、人事、または金融データを即座に統合します.
- パワーワークフロー: Excel で BI ツール、レポート、またはさらなる処理に統合します.
バッチ入力設定:高容量抽出の準備
- **直接入力:**すべてのPDFフォームを単一のフォルダーに置く(例えば.,
/Forms/Input/
). - **出力ファイル:**目的地ファイルを決定する - 典型的に
.csv
または.xlsx
(エクセル). - プラグインイニシアチブ: 設定する
FormExporter
バッチオペレーションのオプション.
using Aspose.Pdf.Plugins;
using System.IO;
// Folder containing input PDF forms
dir string inputDir = @"C:\Forms\Input";
string[] pdfFiles = Directory.GetFiles(inputDir, "*.pdf");
// Output file path (CSV)
string outputCsv = @"C:\Forms\exported-data.csv";
// Create the exporter plugin and options
var exporter = new FormExporter();
var exportOptions = new FormExporterValuesToCsvOptions();
exportOptions.AddOutput(new FileDataSource(outputCsv));
輸出ループ:各PDFからデータを抽出する
各 PDF を処理し、フィールド 値を CSV (または Excel ) に収集します):
foreach (var file in pdfFiles)
{
exportOptions.AddInput(new FileDataSource(file));
}
// Batch export all at once
dynamic resultContainer = exporter.Process(exportOptions);
Console.WriteLine($"Exported data from {pdfFiles.Length} PDFs to {outputCsv}");
タイプ: 輸出された CSV は PDF ごとに 1 行を含み、各フォーム フィールドにコラムが含まれます.
エラー処理と自動化のヒント
- ミッシングフィールド: PDF が不一致なフォーム、レビューおよび事前に有効化された構造を持っている場合.
- 腐敗したファイル: 例外処理を追加して、読み取れないPDFをログインして削除します.
- パフォーマンス: 何千ものPDFの場合は、仕事をバットに分けます(例えば、100を同時に)そしてその後、CSVを合成します.
- ファイル名: 追跡性のための各輸出行でPDFファイルネームをログインします.
高度なシナリオ
- Export to Excel: 使用
FormExporterValuesToExcelOptions
のために.xlsx
出力. - 複数のフォルダーからのプロセス: サブディレクトリを繰り返しスキャンし、結果を組み合わせる.
- 他の情報源とデータを組み合わせる: 輸出後、SQL または分析パイプラインで CSV データに接続します.
利用ケース&ベストプラクティス
- データ分析: 調査、上陸、またはフィードバックフォームのための自動抽出.
- 操作: 総輸出請求書、人事フォーム、または遵守レポート.
- アーカイブ: 保存のためのデータを輸出し、PDFをフラット/最適化する 最適化者 .
FAQ
**Q:スキャンされたPDFからフォームデータを輸出できますか?**A: インタラクティブ(AcroForm/XFA)フィールドを含むPDFのみがサポートされます. スキャンされた画像の場合は、まず OCR を実行し、テキスト抽出プラグインを使用します.
**Q:何百、何千ものファイルを効率的に処理するか?**A:グループにファイルをバッチし、可能な限りパラレル処理を行い、エクスポートに失敗したファイルのエラーを常に記録します.