Aspose.OCR で画像でテキストを検索して比較する方法
画像内のテキストを検索または比較することは、遵守、デジタルアーカイブ、および自動分類のために不可欠です. Aspose.OCR Image Text Finder for .NET は、PII 検出から法的審査に至るまで、さまざまな使用ケースを通じて、正確に画像テックスを識別、検索、比較することができます。
現実世界問題
ビジネスは、敏感なコンテンツを検索し、署名を確認したり、画像ファイルの異なるバージョンのテキストを比較したりする必要があります。
ソリューション概要
Aspose.OCR を使用すると、画像内で特定のテキストやパターン(ラインまたはレゲックスを使用)を検索し、2 つの画像の文字コンテンツを比較して違いを調べることができます 契約レビュー、遵守、またはデジタル資産管理に最適です。
原則
あなたは必要になります:
- Visual Studio 2019 以降
- .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET から NuGet
- 基本的なC#スキル
PM> Install-Package Aspose.OCR
ステップ・ステップ・実施
ステップ1:インストールおよび設定 Aspose.OCR
パッケージを追加し、必要な名称スペース:
using Aspose.OCR;
ステップ2:画像ファイルの準備
検索または比較したい画像を設定します。
string img1 = "document1.png";
string img2 = "document2.jpg";
ステップ3:検索と比較オプションの設定
テキスト検索(ストリングまたはレゲックス)および比較の設定を設定します。
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English; // Adjust as needed
ステップ4:画像でテキストを検索する
使用する The ImageHasText
迅速かつ柔軟なテキスト検索方法(サポートラインとレゲックス):
AsposeOcr ocr = new AsposeOcr();
bool isFound = ocr.ImageHasText(img1, "Confidential", settings); // String search
Console.WriteLine($"Text found: {isFound}");
// Regex search example:
bool regexFound = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // e.g., US SSN pattern
Console.WriteLine($"Regex found: {regexFound}");
ステップ5: 2 画像のテキストを比較する
利用 CompareImageTexts
テキストコンテンツの違いを示す:
int similarity = ocr.CompareImageTexts(img1, img2, settings, true); // true = case-insensitive
Console.WriteLine($"Image text similarity: {similarity}%");
ステップ6:エラー処理を追加する
生産強度のためのエラーを捕獲および処理する:
try
{
AsposeOcr ocr = new AsposeOcr();
bool found = ocr.ImageHasText(img1, "PII", settings);
int sim = ocr.CompareImageTexts(img1, img2, settings, false);
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
ステップ7:大規模検索または比較のための最適化
- アシンクまたはパラレルパターンを使用してバッチで画像を処理する
- プレプロセス画像(収穫、清掃)より高い精度のために
- Fine-tune regex for 高度なシナリオ
// Example: Search for a pattern in all images in a folder
foreach (string file in Directory.GetFiles("./archive", "*.png"))
{
bool found = ocr.ImageHasText(file, "Confidential", settings);
if (found) { Console.WriteLine($"Found in: {file}"); }
}
ステップ8:完璧な例
using Aspose.OCR;
using System;
class Program
{
static void Main(string[] args)
{
try
{
string img1 = "contract1.png";
string img2 = "contract2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
// Search for specific text
bool isFound = ocr.ImageHasText(img1, "NDA", settings);
Console.WriteLine($"Text found: {isFound}");
// Compare two images
int similarity = ocr.CompareImageTexts(img1, img2, settings, true);
Console.WriteLine($"Image text similarity: {similarity}%");
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
ケースとアプリケーションの使用
コンプライアンスとPII検出
デジタル画像アーカイブ内の機密データやパターン(ID、SSNなど)を検索します。
法的・契約審査
サインまたは編集後のテキスト差のための画像ベースの契約または文書を比較します。
デジタル資産管理
ビジネスプロセスの自動化のために、大規模な画像リポジトリで自動タグまたは検索を可能にします。
共通の課題と解決策
課題1 : 異なるテキストスタイルの画像
ソリューション: ケース不敏感およびレゲックスの調和を使用し、さまざまなフォント/背景でテストします。
チャレンジ2:ビッグバッチ検索
ソリューション: 可能な限り、パラレルまたは非同期のワークフロー、およびプレプロセス画像を使用します。
課題3:複雑なパターンまたは編集テキスト
ソリューション: サンプル画像をリフレッシュしてテストし、騒音や編集された画像のトーン設定。
パフォーマンス考慮
- ビッグアーカイブのスピードのバッチプロセス
- 最高の正確さのために高品質のソース画像を使用する
- 偽ポジティブを最小限にするための検索パターン
ベストプラクティス
- すべての検索と比較パターンを最初にサンプルセットでテストします。
- 安全に処理し、敏感な情報や検索結果を記録する
- Aspose.OCR の機能と正確性の向上を定期的に更新する
高度なシナリオ
シナリオ1:編集のための高度なレゲックス
bool found = ocr.ImageHasText(img1, @"(Account|Card)\s*#:?\s*\d{4,}", settings);
シナリオ2:多言語検索
settings.Language = Language.French;
bool isFound = ocr.ImageHasText(img1, "Confidentiel", settings);
結論
Aspose.OCR Image Text Finder for .NET は、画像ベースのテキストを効率的に検索、検出、比較することを可能にします - アーカイブ、法的、および遵守作業の流れを通じて。
より多くの例を見つける ASPOSE.OCR for .NET API リファレンス .