スキャンしたPDFを.NETで検索可能なテキスト文書に変換する方法

スキャンしたPDFを.NETで検索可能なテキスト文書に変換する方法

スキャンしたPDFは、基本的にテキストの画像であるため、扱うのが難しいことがよくあります。これらの画像を検索可能で編集可能なテキスト文書に変換することで、文書管理やコンテンツのアクセシビリティに新たな可能性が広がります。Aspose.OCR for .NETを使用すると、スキャンしたPDFを元の画像を保持しながら完全に検索可能な文書に変換できます。

スキャンしたPDFを検索可能なテキスト文書に変換する理由

  1. アクセシビリティ:
    • スキャンしたコンテンツを検索可能にすることで、文書を手動で読むことなく情報を簡単に見つけることができます。
  2. コンテンツ編集:
    • テキストに変換された後、コンテンツは編集、更新、または他の形式で再利用できます。
  3. 効率性:
    • スキャンしたPDFを完全にアクセス可能なテキスト文書に変換するプロセスを自動化することで、時間を節約できます。

前提条件: スキャンしたPDFからのテキスト抽出の設定

スキャンしたPDFからテキストを抽出する前に、すべてが設定されていることを確認するために、次の手順を実行してください。

  1. Aspose.OCR for .NETをインストール:
    • NuGetを使用してプロジェクトにAspose.OCRを追加します:
      dotnet add package Aspose.OCR
  2. ライセンスを取得:
    • SetMeteredKey()を使用してメーター付きライセンスを設定し、Aspose.OCRの全機能をアンロックします。
  3. スキャンしたPDFを準備:
    • より良い認識精度のために、スキャンしたPDFが高品質であることを確認してください。

ステップバイステップガイド: スキャンしたPDFを検索可能なテキストに変換する

ステップ1: ライセンスの設定

Aspose.OCRのライセンスを設定して、すべての機能をアンロックします。

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("ライセンスが正常に設定されました。");

ステップ2: スキャンしたPDFをOCR入力オブジェクトに読み込む

次に、スキャンしたPDFをOcrInputオブジェクトに読み込んでOCRプロセスを開始します。

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // 最初の3ページを処理
Console.WriteLine("スキャンしたPDFが正常に読み込まれました。");

ステップ3: 認識のためのOCRエンジンを設定

OCRエンジンを設定し、言語や精度などの認識設定を構成します。

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // OCR言語を設定
Console.WriteLine("OCRエンジンが設定されました。");

ステップ4: 認識されたテキストを抽出して出力

次に、OCRエンジンを使用してスキャンしたPDFからテキストを抽出します。

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("スキャンしたPDFからテキストが正常に抽出されました。");

// 認識されたテキストを出力
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// 結果をテキストファイルに保存
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("テキストがrecognized_text.txtに保存されました。");

ステップ5: 検索可能なPDFをテスト

抽出されたテキストが検索可能で編集可能であることを確認するために、PDFビューワーまたはエディタで出力をテストします。

よくある問題と解決策

1. OCR精度が低い

  • 解決策: スキャンしたPDFが高品質(少なくとも300 DPI)であることを確認し、認識結果を改善します。

2. サポートされていないフォント

  • 解決策: 非ラテン文字に対して正確なテキスト認識を行うために、OCR設定で正しい言語が設定されていることを確認します。

3. 大きなPDFのパフォーマンスが遅い

  • 解決策: 大きなPDFの場合、メモリ使用量を減らし、プロセスを加速するために、文書を小さなチャンクまたはページで処理します。
 日本語