テキストエクストラクター プラグイン for Aspose.PDF

.NET のための Aspose.PDF テキストエクストラクター プラグイン は、開発者が PDF ファイルから構造化された、平らな、あるいはそのままのコンテンツを抽出することを可能にします。

●最新記事

Aspose.PDF テキストエクストラクター プラグインキー機能

  • 複数の抽出モードテキストを純粋(フォーマット)、原料(as-is)、または平ら(クリーン)として抽出し、最大限の柔軟性を得る。

  • Batch PDF 処理複数のPDFを同時に抽出およびスムーズなワークフローに追加します。

  • シンプルな .NET 統合*Straightforward API - 迅速な実装のために C# または .NET プロジェクトに追加します。

Betting Started with Aspose.PDF テキストエクストラクター プラグイン

  • .NET のための Aspose.PDF をインストールするNuGet を介して、または .NET ソリューションにセットアップをダウンロードします。

  • ライセンスを設定する無制限の処理とサポートのためにアクティベートします。

  • コントロールエクストラクションオプション利用 TextExtractor そして、 TextExtractorOptions クラス. 望ましい方法で抽出モードを設定します(純粋、原料、平ら)。

    • プロセス&レトリエテスト*抽出とコンテナ収集の結果を通じてアクセス結果を実行します。

例:PDFからテキストを抽出する(C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

例:複数のPDFからバッチエクストラクトテキスト

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

使用ケース&拡張子

  • PDF から TXT への変換: インデックス、検索、またはアーカイブのためのフラットテキストに PDF を自動化する。
  • データマイニング: テーブルデータ、請求書、またはフォームを追加処理または分析のために抽出します。
  • アクセシビリティ: スクリーンリーダーや代替フォーマットのための読みやすいコンテンツの準備。
  • Batch Processing: 特定のダウンストリームワークフロー(例えば、OCRプレプロセッサ、エンティティ認識)のための抽出モードを使用します。

先進的な抽出(例えば、暗号化されたPDFの処理、またはテキスト出力のカスタマイズなど)は、公式API参照に参信します。

■最良の実践*

  • 常にあなたの出力のニーズ(フォーマット、原料、またはクリーン)に合った抽出モードを選択します。
  • 大型ドキュメントセットの場合、バッチプロセスは、パワーを最大化し、手動の努力を最小限にします。
  • テスト抽出は、データの正確さを確保するために現実のPDFで結果を出します。

関連する資源:

 日本語