.NETでスキャンしたPDFを検索可能なテキスト文書に変換する方法

.NETでスキャンしたPDFを検索可能なテキスト文書に変換する方法

スキャンされたPDFは通常、編集不可で画像ベースのファイルであるため、そこからテキストを抽出することが難しいです。しかし、Aspose.OCR for .NETを使用することで、これらのスキャンされたPDFを迅速に編集可能で検索可能なテキスト文書に変換でき、データの取得や文書管理がはるかに容易になります。

スキャンされたPDFを検索可能なテキストに変換すべき理由

  1. アクセシビリティの向上:
    • スキャンされたPDFは、検索可能で編集可能なテキストに変換できるため、コンテンツへのアクセスが向上します。
  2. データの整理:
    • 変換後、テキストは整理、操作、再利用できる形式(Word、Excel、プレーンテキストなど)にすることができます。
  3. コンテンツの保持:
    • Aspose.OCRは、テキストを抽出する際に元の画像とレイアウトを保持することを保証し、コンテンツとコンテキストの両方を提供します。

前提条件:スキャンされたPDF変換の準備

スキャンされたPDFからテキストを抽出するプロセスを開始する前に、以下を確認してください。

  1. Aspose.OCR for .NETのインストール:
    • NuGetを使用して必要なライブラリをインストールします。コマンドは次の通りです:
      dotnet add package Aspose.OCR
  2. ライセンスの設定:
    • SetMeteredKey()メソッドを使用してメーター付きライセンスを取得し、全機能をアンロックします。
  3. スキャンされたPDFの準備:
    • 最良のOCR結果を得るために、スキャンされたPDFが良好な品質(300 DPI以上)であることを確認してください。

スキャンされたPDFをテキストに変換するステップバイステップガイド

ステップ1: ライセンスの設定

Aspose.OCRライセンスを設定して、機能に完全にアクセスできるようにします。

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("メーター付きライセンスが正常に設定されました。");

ステップ2: スキャンされたPDFをOCR入力オブジェクトにロード

スキャンされたPDFファイルをOCRエンジンにロードして、テキスト認識を行います。

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // 処理するページを指定(最初の3ページ)
Console.WriteLine("スキャンされたPDFが正常にロードされました。");

ステップ3: 認識のためのOCRエンジンの設定

スキャンされたPDFからのテキスト抽出を最適化するためにOCRエンジンを設定します。

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // OCR言語を指定(英語の場合はラテンを使用)
Console.WriteLine("OCR設定が正常に設定されました。");

ステップ4: 認識されたテキストを抽出して保存

スキャンされたPDFを処理してテキストを抽出し、ファイルに出力します。

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("テキスト抽出が成功しました。");

// 認識されたテキストをファイルに出力
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("認識されたテキストがrecognized_text.txtに保存されました。");

ステップ5: 認識されたテキストをテスト

抽出後、出力ファイルを確認するか、コンソールに表示してテキスト認識の精度を検証します。


一般的な問題と解決策

1. OCR精度が低い

  • 解決策: スキャンされたPDFの品質が高い(300 DPI以上)ことを確認し、認識精度を向上させます。

2. 言語認識が不正確

  • 解決策: 特に非ラテン文字の場合、RecognitionSettingsで言語設定を明示的に指定して、より良い結果を得ます。

3. 大きなファイルのパフォーマンスが遅い

  • 解決策: 大きなPDFをチャンクで処理するか、メモリ使用量を最適化してOCRプロセスを高速化します。
 日本語