Как искать несколько ключевых слов или шаблонов в изображениях
Поиск множества ключевых слов или текстовых шаблонов в больших архивах изображений имеет решающее значение для соответствия, безопасности и цифрового открытия. Aspose.OCR Image Text Finder для .NET делает облегчение сканирования картин для перечислений ключей или регекс-моделей.
Реальные мировые проблемы
Ручный обзор изображений для множества терминов (например, имена, идентификаторы, конфиденциальные фразы) медленно и недостоверно, особенно в тысячах файлов.
Решение обзор
Автоматическое выявление путем выполнения поисков множества ключевых слов или регекса на кусочках изображений. сообщать или действовать на матчах для соблюдения, HR или цифровой юриспруденции используют случаи.
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Инсталляция и настройка Aspose.OCR
using Aspose.OCR;
Шаг 2: Определите свои ключевые слова или шаблоны
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Шаг 3: Загрузите поисковые изображения для ключевых слов/патерн
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Шаг 4: Регистрация и действие на матчах
- Сохраните результаты в CSV, отправьте уведомления или выпустите рабочий поток на матче.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Шаг 5: Управление ошибками и производительность
- Используйте try/catch для robust batch jobs
- Параллельно для больших комплектов, если это необходимо
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Шаг 6: Полный пример
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Используйте случаи и приложения
Аудит соответствия
Автоматически проверяйте сканированные архивы для черных слов или чувствительных шаблонов.
HR, правовая и безопасная
Откройте наличие конфиденциальных фраз, имен сотрудников или PII в наборных или доказательственных файлах.
Анализ тенденций и частот
Расчет и отчёт частоты ключевых слов с течением времени в больших документах.
Общие вызовы и решения
Проблема 1: Фальшивые положительные
Решение: Рефинировать ключевые слова и регекс; рецензировать случаи краю вручную.
Проблема 2: Большой батарейный размер
Решение: Используйте параллельную обработку и крепкое управление ошибками.
Проблема 3: многочисленные языки
Решение: Сделайте настройки распознавания и списки ключевых слов по языку.
Рассмотрим производительность
- Работы в батареях могут длиться на большие архивы — мониторные процессоры, диски и записи.
- Параллелируйте при необходимости для высокой пропускной мощности
- Зарегистрируйте все результаты для обзора и соблюдения
Лучшие практики
- Регулярно чистить и обновлять списки ключевых слов
- Автоматическое логгирование и отчетности ошибок
- Тест на представительные образцы архивов
- Безопасные записи и результаты поиска
Развитые сценарии
Сценарий 1: Поиск и выделение результатов в PDF
Экспортируйте изображения с найденными ключевыми словами, подчеркиваемыми (например, после обработки).
Сценарий 2: Планирование регулярных аудитов ключевых слов
Автоматическая работа для ночного или еженедельного выполнения.
Заключение
Aspose.OCR Image Text Finder для .NET позволяет мощным, автоматизированным поиском ключевых слов и шаблонов — поддерживая соответствие, безопасность и анализ тенденций в архивах изображений.
See ASPOSE.OCR для .NET API Для продвинутых текстовых поисковых примеров.