テキストエクストラクター プラグイン for Aspose.PDF
.NET のための Aspose.PDF テキストエクストラクター プラグイン は、開発者が PDF ファイルから構造化された、平らな、あるいはそのままのコンテンツを抽出することを可能にします。
●最新記事
Aspose.PDF テキストエクストラクター プラグインキー機能
複数の抽出モードテキストを純粋(フォーマット)、原料(as-is)、または平ら(クリーン)として抽出し、最大限の柔軟性を得る。
Batch PDF 処理複数のPDFを同時に抽出およびスムーズなワークフローに追加します。
シンプルな .NET 統合*Straightforward API - 迅速な実装のために C# または .NET プロジェクトに追加します。
Betting Started with Aspose.PDF テキストエクストラクター プラグイン
.NET のための Aspose.PDF をインストールするNuGet を介して、または .NET ソリューションにセットアップをダウンロードします。
ライセンスを設定する無制限の処理とサポートのためにアクティベートします。
コントロールエクストラクションオプション利用
TextExtractor
そして、TextExtractorOptions
クラス. 望ましい方法で抽出モードを設定します(純粋、原料、平ら)。- プロセス&レトリエテスト*抽出とコンテナ収集の結果を通じてアクセス結果を実行します。
例:PDFからテキストを抽出する(C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
例:複数のPDFからバッチエクストラクトテキスト
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
使用ケース&拡張子
- PDF から TXT への変換: インデックス、検索、またはアーカイブのためのフラットテキストに PDF を自動化する。
- データマイニング: テーブルデータ、請求書、またはフォームを追加処理または分析のために抽出します。
- アクセシビリティ: スクリーンリーダーや代替フォーマットのための読みやすいコンテンツの準備。
- Batch Processing: 特定のダウンストリームワークフロー(例えば、OCRプレプロセッサ、エンティティ認識)のための抽出モードを使用します。
先進的な抽出(例えば、暗号化されたPDFの処理、またはテキスト出力のカスタマイズなど)は、公式API参照に参信します。
■最良の実践*
- 常にあなたの出力のニーズ(フォーマット、原料、またはクリーン)に合った抽出モードを選択します。
- 大型ドキュメントセットの場合、バッチプロセスは、パワーを最大化し、手動の努力を最小限にします。
- テスト抽出は、データの正確さを確保するために現実のPDFで結果を出します。
関連する資源: