Как да търсите няколко ключови думи или шаблони в изображения

Как да търсите няколко ключови думи или шаблони в изображения

Търсенето на няколко ключови думи или текстови шаблони в големи архиви за изображения е от решаващо значение за съответствието, сигурността и цифровото откриване. Aspose.OCR Image Text Finder за .NET улеснява събирането на скенирани образи за списъци с кључни думи и регекс модели.

Реални световни проблеми

Ручният преглед на изображенията за няколко термина (например имена, идентификатори, поверителни фрази) е бавен и недостоен, особено през хиляди файлове.

Преглед на решението

Автоматично откриване чрез изпълнение на много ключови думи или регекс търсения на комплекти от изображения. докладване или действие на мачове за съответствие, HR, или цифрова медицинска употреба случаи.

Предупреждения

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

using Aspose.OCR;

Стъпка 2: Определете вашите ключови думи или шаблони

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Стъпка 3: Забавяне на изображения за търсене на ключови думи / модели

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Стъпка 4: Регистрирайте се и действайте по мачове

  • Съхраняване на резултатите в CSV, изпращане на предупреждения или стартиране на работен поток на мача.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Стъпка 5: Управление на грешки и изпълнение

  • Използвайте try/catch за robust batch jobs
  • Паралелно за големи комплекти, ако е необходимо
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Стъпка 6: Допълнителен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Използване на случаи и приложения

Одит на съответствието

Автоматично проверете скенираните архиви за черни думи или чувствителни шаблони.

HR, право и сигурност

Открийте наличието на поверителни фрази, имена на служители или PII във файловете на борда или доказателствата.

Анализ на тенденциите и честотите

Изчислете и отчетете честотата на ключовите думи с течение на времето в големи документи.

Съвместни предизвикателства и решения

Предизвикателство 1: Фалшиви положителни

Решение: Рефиниране на ключови думи и regex; ръчно преразглеждане на крайните случаи.

Предизвикателство 2: Големият размер на батерията

Решение: Използвайте паралелна обработка и солидно управление на грешките.

Предизвикателство 3: Много езици

Решение: Настройване на настройките за разпознаване и списъците с ключови думи по езиков пакет.

Преглед на изпълнението

  • Работата на батерията може да работи дълго за големи архиви – монитор CPU, диск и дневници
  • Паралелно, ако е необходимо за висок пропуск
  • Регистрирайте всички резултати за преглед и съответствие

Най-добрите практики

  • Почистване и актуализиране на ключови думи списъци редовно
  • Автоматично записване и отчитане на грешки
  • Изпитване на представителни архивни проби
  • Безопасни записи и резултати от търсенето

Разширени сценарии

Сценарий 1: Търсене и подчертаване на резултатите в изход PDF

Експортиране на изображения с открити ключови думи, подчертани (например след обработка).

Сценарий 2: Планиране на редовни одити за ключови думи

Автоматична работа за работа през нощта или седмично за съответствие.

заключение

Aspose.OCR Image Text Finder за .NET позволява мощно, автоматизирано търсене на ключови думи и шаблони – поддържане на съответствие, сигурност и анализ на тенденциите в архивите на изображенията.

See Aspose.OCR за .NET API Референт За напреднали текстови примери за търсене.

 Български