Com buscar múltiples paraules clau o patrons en imatges

Com buscar múltiples paraules clau o patrons en imatges

La recerca de múltiples paraules clau o patrons de text en els arxius d’imatges grans és crucial per a la conformitat, la seguretat i la descoberta digital. Aspose.OCR Image Text Finder per .NET fa que sigui fàcil batxar les imatges de l’escaneig per als llistes de parells claus o regex.

El problema del món real

La revisió manual d’imatges per a múltiples termes (per exemple, noms, IDs, frases confidencials) és lenta i no fiable, especialment a través de milers de fitxers.

Revisió de solucions

Detecció automàtica mitjançant l’execució de multi-clavors o regex cerques en batxes d’imatges. Reportar o actuar en matches per a la conformitat, HR, o casos de ús de la forensica digital.

Prerequisits

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Instal·la i configura Aspose.OCR

using Aspose.OCR;

Pas 2: Defineix les teves paraules clau o patrons

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Pas 3: Batxeta les imatges de cerca per a paraules clau / patrons

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Pas 4: Log i actuar en els partits

  • Salvar els resultats a CSV, enviar alertes o desencadenar el flux de treball en el partit.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Pas 5: Traduïm els errors i el rendiment

  • Utilitza try/catch per a treballs de batxillerat robustos
  • Paral·lelitzar per a grans set si és necessari
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Pas 6: Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Utilitzar casos i aplicacions

Auditors de conformitat

Verifica automàticament els arxius escanats per a paraules de llista negra o patrons sensibles.

HR, Legal i Seguretat

Detectar la presència de frases confidencials, noms de treballadors, o PII en els arxius de navegació o evidència.

Anàlisi de tendències i freqüències

Compte i informe de la freqüència de paraules clau al llarg del temps en grans grups de documents.

Els reptes i les solucions comunes

Títol 1: Fals positius

Solució: Refineu les paraules clau i regex; reviseu els casos de la vora manualment.

Títol 2: Gran batxillerat

** Solució: ** Utilitza el processament paral·lel i el tractament d’errors robust.

Títol 3: Múltiples llengües

Solució: Ajustar les configuracions de reconeixement i les llistes de paraules clau per grup de llengües.

Consideracions de rendiment

  • Els treballs de batxillerat poden durar molt temps per a arxius grans - CPU de monitor, disc i logs
  • Paral·lelitzar si es requereix per a una alta velocitat
  • Registre tots els resultats per a la revisió i compliment

Les millors pràctiques

  • Curar i actualitzar les llistes de paraules clau regularment
  • Llogging i reportatge d’error automàtic
  • Test de mostres d’arxius representatius
  • Logs segurs i resultats de cerca

Escenaris avançats

Escenari 1: Cerca i evidencia els resultats en la sortida PDF

Exportar imatges amb paraules clau trobades destacades (post-processament personalitzat).

Escenari 2: Calendari de les revisions de paraules clau de batxillerat regular

Treball automàtic per executar de nit o setmanal per a la conformitat.

Conclusió

Aspose.OCR Image Text Finder per a .NET permet una potent i automatitzada búsqueda de paraules clau i patrons, que dóna suport a la conformitat, la seguretat i l’anàlisi de tendències a través dels arxius d’imatges.

See Aspose.OCR per a .NET API Referència Exemples avançats de cerca de text.

 Català