スキャンされたPDFを .NET で検索可能なテキストドキュメントに変換する方法

スキャンされたPDFは、基本的に単なるテキスト画像であるため、仕事をしばしば挑戦します. これらの画像を検索可能で編集可能なテキストドキュメントに変換すると、ドキュメント管理とコンテンツのアクセス可能性の世界が開きます. Aspose.OCR for .NET では、スキャンされたPDFを完全に検索可能なドキュメントに変換し、オリジナルの画像を保存することができます。

なぜスキャンされたPDFを検索可能なテキストドキュメントに変換するのですか?

アクセス可能:- スキャンされたコンテンツを検索可能にし、ドキュメントを通じて手動で読むことなく情報を簡単に見つけることができます。
コンテンツ編集:- テキストに変換すると、コンテンツは編集、更新、または他のフォーマットで再利用することができます。
効率性:- スキャンされたPDFを完全にアクセス可能なテキストドキュメントに変換するプロセスを自動化することによって時間を節約します。

要件: スキャンされた PDF テキスト抽出の設定

スキャンされたPDFからテキストを抽出する前に、すべてが設定されていることを確認するために、以下の手順に従ってください。

NET のための Aspose.OCR をインストールする:- NuGet を使用してプロジェクトに Aspose.OCR を追加する: dotnet add package Aspose.OCR
ライセンスを取得する:- 測定されたライセンスを使用して設定する SetMeteredKey() Aspose.OCR の完全な機能を解除します。
スキャンされたPDFを修正する:- スキャンされたPDFが、より良い認識の正確さのために、良い品質であることを確認します。

ステップ・ステップ・ガイド:スキャンされたPDFを検索可能なテキストに変換する

ステップ1:ライセンスを設定する

Aspose.OCR ライセンスを設定して、すべての機能を解除します。

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

ステップ2:スキャンされたPDFをOCR入力オブジェクトにアップロードする

次に、スキャンされた PDF を OcrInput オブジェクトにアップロードして OCR プロセスを開始します。

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

ステップ3:認識のためのOCRエンジンを設定する

OCR エンジンを設定し、言語や正確性などの認識設定を設定します。

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

ステップ4:認定テキストの抽出と出力

現在、OKRエンジンを使用してスキャンされたPDFからテキストを抽出します。

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

ステップ5:検索可能なPDFをテストする

抽出されたテキストが検索可能で編集可能であることを確認し、PDFビューヤーまたはエディターで出力をテストします。

共通の問題と修正

1.低OCR正確性

ソリューション:スキャンされたPDFが高品質(少なくとも300 DPI)であることを確認し、認識結果を向上させます。

2.サポートされていないフォント

ソリューション:正しい言語がOKR設定に設定されていることを確保し、特に非ラテン文字の正確なテキスト認識を提供します。

3. 遅いパフォーマンス大型PDF

ソリューション: 大型PDFの場合は、メモリの使用量を減らし、プロセスを加速するために、より小さな部分またはページで文書を処理します。