スキャンされたPDFを .NET で検索可能なテキストドキュメントに変換する方法

スキャンされたPDFは通常、編集できない、画像ベースのファイルであり、それらからテキストを抽出するのが困難になりますが、 Aspose.OCR for .NET を使用すると、これらのスキャンされたPDFを編集可能で検索可能なテキストドキュメントに迅速に変換することができます。

なぜ、スキャンされたPDFを検索可能なテキストに変換する必要がありますか?

拡大可能性:- スキャンされたPDFは、検索可能で編集可能なテキストに変換することができ、コンテンツへのより良いアクセシビリティを可能にします。
データ組織:- 変換した後、テキストは、Word、Excel、または平らなテキストなどのさまざまなフォーマットで組織、操作、再利用することができます。
コンテンツ保有:- Aspose.OCR は、テキストが抽出される間に、オリジナルの画像とレイアウトが保存され、コンテンツと文脈の両方を提供することを保証します。

原題:Ready for Scanned PDF Conversion

スキャンされたPDFからテキストを抽出するプロセスを開始する前に、以下のことを確認してください。

NET のための Aspose.OCR をインストールする:- NuGet を使用して必要なライブラリをコマンドでインストールする: dotnet add package Aspose.OCR
ライセンス設定:- 取得および測定ライセンスを使用して設定する SetMeteredKey() すべての機能を解除する方法
スキャンされたPDFを準備する:- スキャンされた PDF が最高の OCR 結果を得るために良質(300 DPI またはそれ以上)であることを確認します。

スキャンされたPDFをテキストに変換するためのステップ・ステップガイド

ステップ1:ライセンスを設定する

機能への完全なアクセスを確保するために Aspose.OCR ライセンスを設定することから始まります。

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

ステップ2:スキャンされたPDFをOCR入力オブジェクトにアップロードする

スキャンされた PDF ファイルをテキスト認識のための OCR エンジンにアップロードします。

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

ステップ3:認識のためのOCRエンジンを設定する

OCR エンジンを設定して、スキャンされた PDF からテキスト抽出を最適化します。

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

ステップ4:認定テキストの抽出と保存

スキャンされたPDFを処理して、テキストを抽出し、ファイルにリリースします。

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

ステップ5:認定テキストのテスト

抽出後、出力ファイルをチェックまたはコンソールに表示することによって、テキスト認識の正確性を確認します。

共通の問題と修正

1.OCRの正確性

ソリューション:より正確な認識のために、スキャンされたPDFの品質が高い(300 DPI以上)であることを確認します。

2.不適切な言語認識

ソリューション: より良い結果、特に非ラテン語の文字のために RecognitionSettings の言語設定を明確に指定します。

3. 長いファイルの遅いパフォーマンス

ソリューション: 大型PDFをパーツで処理するか、OCRプロセスを加速するためにメモリの使用を最適化します。