Aspose.OCRでスキャンされたPDFからテキストを抽出する方法
Aspose.OCR Scanned PDF to Text for .NET を使用すると、このプロセスを自動化し、PDF を検索可能で編集可能なテキストに変換することができます。
現実世界問題
組織は、通常、スキャンされたPDFのような契約、レポート、またはアーカイブを受け取ります. 手動でテキストをコピーしたり、これらの文書の内部を検索することは、不快でエラーが原因で、遵守を遅らせ、ファイル化、デジタル変換プロジェクト。
ソリューション概要
Aspose.OCR for .NET は、スキャンされた PDF プロセスをバッチすることを可能にします - テキストまたは検索可能なPDF に変換し、情報がアクセス可能で、インデックス可能であり、デジタルワークフローのための準備ができています。
原則
スタートする前に、あなたが持っていることを確認してください:
- Visual Studio 2019 以降
- .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET から NuGet
- 基本的なC#知識
PM> Install-Package Aspose.OCR
ステップ・ステップ・実施
ステップ1:インストールおよび設定 Aspose.OCR
NuGet パッケージと参照 Aspose.OCR を追加する:
using Aspose.OCR;
ステップ2:スキャンされたPDFファイルを追加する
PDF入力のための OcrInput オブジェクトを作成し、スキャンされた PDF ファイルを追加します。
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
ステップ3:認識設定を設定する
あなたの文書に合った言語およびその他の認識設定を設定します。
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
ステップ4:認定プロセスを実行
スキャンされたPDFからテキストを認識する:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
ステップ5:認定テキストを保存または輸出
認められたテキストをファイルに輸出するか、結果を検索可能なPDFに変換する。
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
ステップ6:エラー処理を追加する
強度のための試用/キャッチブロックで認識を振り回します。
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
ステップ7:大型または複数ページのPDFに最適化
- 大型ファイルのためのページによるPDFの処理
- 最高の結果を得るために高品質のスキャンを使用する
- 大きなコレクションのためのパラレルバッチプロセス
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
ステップ8:完璧な作業例
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
ケースとアプリケーションの使用
デジタルアーカイブ
スキャンされた文書の図書館全体を検索可能でインデックス可能なファイルに変換し、コンプライアンスと知識管理を行います。
法的・契約管理
PDFの契約条項または条件をレビュー、自動化、またはデジタル署名のために抽出します。
ストリーミングドキュメント検索
ファイル、知識ベース、またはケースファイルで迅速なフルテキスト検索を可能にします。
共通の課題と解決策
課題1:低品質またはスケートスキャン
ソリューション: 可能な限り、事前に処理するフィルターと高品質のスキャンを使用します。
チャレンジ2:多言語PDF
ソリューション: 複数の言語オプションを使用して認識設定またはプロセスに語を設定します。
チャレンジ3:非常に大きなPDFファイル
ソリューション: バッチまたはページごとに処理し、メモリの使用を監視します。
パフォーマンス考慮
- スキャンされたPDFに最適なDPI(300+)を使用する
- バッチプロセス 最良のパスポート
- OCR オブジェクトと閉鎖ファイルハンドルを配置する
ベストプラクティス
- さらなる自動化前にOCR出力を確認する
- オリジナル PDF ファイルの組織およびバックアップ
- あなたのワークフローに正しいSaveFormatを使用する
- 新しいPDF機能のための Aspose.OCR を定期的に更新する
高度なシナリオ
シナリオ1:PDFから特定のページのみを抽出する
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
シナリオ2:複数のフォーマットへの輸出
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
結論
Aspose.OCR for .NET では、スキャンされた PDF を有効なテキストおよび検索可能なファイルに変換することを可能にします - 手動入力を削除し、組織全体に情報をアクセスできるようにします。
詳細や例はこちらをご覧ください。 ASPOSE.OCR for .NET API リファレンス .