Як шукати кілька ключових слів або шаблонів у зображеннях
Пошук декількох ключових слів або текстових шаблонів у великих архівах зображення є вирішальним для дотримання, безпеки та цифрового відкриття. Aspose.OCR Image Text Finder для .NET робить його простим для обробки скенерних знімків для списків ключевих слов або регекс-моделів.
Реальні проблеми світу
Ручний огляд зображень для декількох термінів (наприклад, назви, ідентифікатори, конфіденційні фрази) повільний і недостовірний, особливо через тисячі файлів.
Огляд рішення
Автоматичне виявлення за допомогою багатоквартирних або регекс-пошуків на батах зображень. Звітувати або діяти на матчах для дотримання, людських ресурсів або цифрової юриспруденції використовують випадки.
Передумови
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET від NuGet
PM> Install-Package Aspose.OCR
Крок за кроком реалізація
Крок 1: Завантажити та встановити Aspose.OCR
using Aspose.OCR;
Крок 2: Визначте свої ключові слова або шаблони
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Крок 3: Завантажити пошукові зображення для ключових слів/патрин
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Крок 4: Зареєструватися і діяти на матчах
- Зберегти результати в CSV, надіслати попередження або випустити робочий потік на матчі.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Крок 5: Використання помилок та їх виконання
- Використовуйте try/catch для робочих місць
- Паралелі для великих комплектів, якщо це необхідно
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Крок 6: Повний приклад
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Використання випадків та додатків
аудиту відповідності
Автоматично перевіряти скановані архіви для чорного списку слів або чутливих шаблонів.
HR, право та безпека
Визначити наявність конфіденційних фраз, імен співробітників або PII в наборних або доказових файлах.
Аналіз тенденцій і частот
Розрахуйте і повідомте частоту ключових слів з часом у великих документах.
Спільні виклики та рішення
Виклик 1: Фальшиві позитиви
Рішення: Рефініруйте ключові слова і регекс; перегляньте випадки краю вручну.
Виклик 2: Великий розмір батареї
Рішення: Використовуйте паралельну обробку та міцну справу з помилками.
Проблема 3: багатомовність
Рішення: Налаштуйте налаштування розпізнавання та списки ключових слів за групою мов.
Виконання розглядів
- Бач робочих місць може тривати довго для великих архівів — моніторингу CPU, диска і журналів
- Паралелізуйте, якщо це необхідно для високої пропускної здатності
- Зареєструйте всі результати для перевірки та дотримання
Найкращі практики
- Регулярно чистити та оновлювати списки ключових слів
- Автоматичне логінг та повідомлення про помилки
- Тест на представницьких зразках архівів
- Безпечні записи та результати пошуку
Розширені сценарії
Сценарій 1: Пошук і підкреслення результатів в PDF
Експортуйте зображення з виявленими ключовими словами (налаштування після обробки).
Сценарій 2: Програма регулярних аудитів ключових слів
Автоматичні роботи, щоб працювати нічно або щотижня для дотримання.
Заключення
Aspose.OCR Image Text Finder для .NET дозволяє потужний, автоматизований пошук ключових слів і шаблонів — підтримує відповідність, безпеку та аналіз тенденцій у архівах зображень.
See Aspose.OCR для .NET API Референт Для передових прикладів пошуку тексту.