Як шукати кілька ключових слів або шаблонів у зображеннях

Як шукати кілька ключових слів або шаблонів у зображеннях

Пошук декількох ключових слів або текстових шаблонів у великих архівах зображення є вирішальним для дотримання, безпеки та цифрового відкриття. Aspose.OCR Image Text Finder для .NET робить його простим для обробки скенерних знімків для списків ключевих слов або регекс-моделів.

Реальні проблеми світу

Ручний огляд зображень для декількох термінів (наприклад, назви, ідентифікатори, конфіденційні фрази) повільний і недостовірний, особливо через тисячі файлів.

Огляд рішення

Автоматичне виявлення за допомогою багатоквартирних або регекс-пошуків на батах зображень. Звітувати або діяти на матчах для дотримання, людських ресурсів або цифрової юриспруденції використовують випадки.

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

using Aspose.OCR;

Крок 2: Визначте свої ключові слова або шаблони

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Крок 3: Завантажити пошукові зображення для ключових слів/патрин

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Крок 4: Зареєструватися і діяти на матчах

  • Зберегти результати в CSV, надіслати попередження або випустити робочий потік на матчі.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Крок 5: Використання помилок та їх виконання

  • Використовуйте try/catch для робочих місць
  • Паралелі для великих комплектів, якщо це необхідно
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Крок 6: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Використання випадків та додатків

аудиту відповідності

Автоматично перевіряти скановані архіви для чорного списку слів або чутливих шаблонів.

HR, право та безпека

Визначити наявність конфіденційних фраз, імен співробітників або PII в наборних або доказових файлах.

Аналіз тенденцій і частот

Розрахуйте і повідомте частоту ключових слів з часом у великих документах.

Спільні виклики та рішення

Виклик 1: Фальшиві позитиви

Рішення: Рефініруйте ключові слова і регекс; перегляньте випадки краю вручну.

Виклик 2: Великий розмір батареї

Рішення: Використовуйте паралельну обробку та міцну справу з помилками.

Проблема 3: багатомовність

Рішення: Налаштуйте налаштування розпізнавання та списки ключових слів за групою мов.

Виконання розглядів

  • Бач робочих місць може тривати довго для великих архівів — моніторингу CPU, диска і журналів
  • Паралелізуйте, якщо це необхідно для високої пропускної здатності
  • Зареєструйте всі результати для перевірки та дотримання

Найкращі практики

  • Регулярно чистити та оновлювати списки ключових слів
  • Автоматичне логінг та повідомлення про помилки
  • Тест на представницьких зразках архівів
  • Безпечні записи та результати пошуку

Розширені сценарії

Сценарій 1: Пошук і підкреслення результатів в PDF

Експортуйте зображення з виявленими ключовими словами (налаштування після обробки).

Сценарій 2: Програма регулярних аудитів ключових слів

Автоматичні роботи, щоб працювати нічно або щотижня для дотримання.

Заключення

Aspose.OCR Image Text Finder для .NET дозволяє потужний, автоматизований пошук ключових слів і шаблонів — підтримує відповідність, безпеку та аналіз тенденцій у архівах зображень.

See Aspose.OCR для .NET API Референт Для передових прикладів пошуку тексту.

 Українська