画像で複数のキーワードやパターンを検索する方法
画像で複数のキーワードやパターンを検索する方法
大型画像アーカイブで複数のキーワードやテキストパターンを検索することは、遵守、セキュリティ、デジタル発見に不可欠です。
現実世界問題
複数の用語(例えば、名前、ID、機密のフレーズ)の画像の手動レビューは、特に数千のファイルを通じて、ゆっくりと信頼できない。
ソリューション概要
マルチキーワードまたは画像のバッグでリゲックス検索を実行することによって自動検出 レポートまたは合意のための試合、人事、またはデジタル法医学の使用ケースで行動します。
原則
- Visual Studio 2019 以降
- .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET から NuGet
PM> Install-Package Aspose.OCR
ステップ・ステップ・実施
ステップ1:インストールおよび設定 Aspose.OCR
using Aspose.OCR;
ステップ2:キーワードやパターンを設定する
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
ステップ3:キーワード/パターンにバッチ検索画像
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
ステップ4:試合にログイン・アクション
- 結果を CSV に保存し、警告を送信したり、試合でワークフローを起動したりします。
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
ステップ5:エラー処理とパフォーマンス
- 強力なバッチワークのための試用/キャッチを使用する
- 必要に応じて大型セットに並べます。
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
ステップ6:完璧な例
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
ケースとアプリケーションの使用
遵守監査
ブラックリストの単語や敏感なパターンでスキャンされたアーカイブを自動的にチェックします。
HR、法律、セキュリティ
機密のフレーズ、従業員の名前、またはPIIの存在を検出する上着または証拠ファイル。
トレンドと周波数分析
大型ドキュメントセットでキーワードの頻度を数え、報告します。
共通の課題と解決策
課題1:偽のポジティブ
ソリューション: キーワードと regex をマニュアルでレビューします。
チャレンジ2:大バッチサイズ
ソリューション: パラレル処理と強力なエラー処理を使用します。
課題3:多言語
ソリューション: 言語バッチごとに認識設定とキーワードリストを調整します。
パフォーマンス考慮
- バッチワークは、モニターCPU、ディスク、およびロゴなど、大規模なアーカイブのために長く走ることができます。
- パラレルリズムは、高パワーに必要な場合
- すべての結果を登録してレビューと遵守
ベストプラクティス
- 定期的にキーワードリストを修正・更新
- 自動エラーログとレポート
- 代表的なアーカイブサンプルのテスト
- セキュアログと検索結果
高度なシナリオ
シナリオ1:検索結果と出力PDFの強調
発見されたキーワードを強調した画像を輸出する(カスタム後の処理)。
シナリオ2:定期バッチキーワード監査のスケジュール
従順のために夜間または週間に自動作業を実行します。
結論
ASPOSE.OCR Image Text Finder for .NET は、強力で自動化されたバッチキーワードとパターン検索を可能にし、画像アーカイブを通じて遵守、セキュリティ、トレンド分析をサポートします。
See ASPOSE.OCR for .NET API リファレンス 高度なテキスト検索例