Come cercare più parole chiave o modelli in immagini

Come cercare più parole chiave o modelli in immagini

La ricerca di più parole chiave o modelli di testo nei grandi archivi di immagini è fondamentale per la conformità, la sicurezza e la scoperta digitale. Aspose.OCR Image Text Finder per .NET rende facile da scansionare le immagini di scansione per le elenchi di parole principali o modello reggex.

Il problema del mondo reale

La revisione manuale delle immagini per più termini (ad esempio, nomi, ID, frasi riservate) è lenta e non affidabile, specialmente in migliaia di file.

Soluzione Overview

La rilevazione automatica eseguendo ricerche di parole chiave multi o regex su scatole di immagini. Rapporti o azioni su partite per la conformità, risorse umane, o i casi di utilizzo della forensica digitale.

Prerequisiti

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

using Aspose.OCR;

Passo 2: Definisci le tue parole chiave o i tuoi modelli

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Passo 3: Batch Immagini di ricerca per Keywords/Patterns

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Passo 4: Registrazione e azione su partite

  • Salva i risultati in CSV, invia avvertimenti o rilascia il flusso di lavoro sul match.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Passo 5: Trattamento degli errori e prestazioni

  • Utilizzare try/catch per lavori di batch robusti
  • Parallelizzare per grandi set se necessario
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Passo 6 - Esempio completo

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Utilizzare casi e applicazioni

Audit di conformità

Controlla automaticamente gli archivi scansionati per parole o modelli sensibili.

HR, legale e sicurezza

Identificare la presenza di frasi riservate, nomi dei dipendenti o PII nei file di navigazione o di prova.

Analisi di tendenza e frequenza

Contare e segnalare la frequenza delle parole chiave nel tempo in grandi set di documenti.

Sfide e soluzioni comuni

Titolo originale: False Positives

Soluzione: Rifina le parole chiave e regex; riesamina manualmente i casi di margine.

Challenge 2: Grande dimensione di batch

Soluzione: Utilizza il trattamento parallelo e la gestione di errori robusta.

3 – Le lingue più diverse

Soluzione: Ajustare le impostazioni di riconoscimento e le liste di parole chiave per pacchetto linguistico.

Considerazioni di prestazioni

  • I lavori di batch possono funzionare a lungo per grandi archivi – monitor CPU, disco e log
  • Parallelizzare se necessario per un elevato percentuale
  • Inserisci tutti i risultati per la revisione e il rispetto

Migliori pratiche

  • Ristrutturare e aggiornare regolarmente le liste di parole chiave
  • Errore automatico di registrazione e segnalazione
  • Test di campioni di archivi rappresentativi
  • Log sicuri e risultati di ricerca

Scenari avanzati

Scenario 1: Ricerca e evidenza i risultati in PDF

Esportare immagini con le parole chiave trovate evidenziate (post-processing personalizzato).

Scenario 2: Calendario Regolare Batch Keyword Audits

Lavoro automatico per essere eseguito di notte o settimanale per la conformità.

conclusione

Aspose.OCR Image Text Finder per .NET consente una potente, automatizzata raccolta di parole chiave e di ricerca dei modelli – supportando la conformità, la sicurezza e l’analisi delle tendenze in tutti gli archivi di immagini.

See Aspose.OCR per .NET API Reference per esempi di ricerca di testo avanzato.

 Italiano