Come cercare più parole chiave o modelli in immagini
La ricerca di più parole chiave o modelli di testo nei grandi archivi di immagini è fondamentale per la conformità, la sicurezza e la scoperta digitale. Aspose.OCR Image Text Finder per .NET rende facile da scansionare le immagini di scansione per le elenchi di parole principali o modello reggex.
Il problema del mondo reale
La revisione manuale delle immagini per più termini (ad esempio, nomi, ID, frasi riservate) è lenta e non affidabile, specialmente in migliaia di file.
Soluzione Overview
La rilevazione automatica eseguendo ricerche di parole chiave multi o regex su scatole di immagini. Rapporti o azioni su partite per la conformità, risorse umane, o i casi di utilizzo della forensica digitale.
Prerequisiti
- Visual Studio 2019 o successivo
- .NET 6.0 o successivo (o .Net Framework 4.6.2+)
- Aspose.OCR per .NET da NuGet
PM> Install-Package Aspose.OCR
Implementazione passo dopo passo
Passo 1: Installare e configurare Aspose.OCR
using Aspose.OCR;
Passo 2: Definisci le tue parole chiave o i tuoi modelli
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Passo 3: Batch Immagini di ricerca per Keywords/Patterns
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Passo 4: Registrazione e azione su partite
- Salva i risultati in CSV, invia avvertimenti o rilascia il flusso di lavoro sul match.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Passo 5: Trattamento degli errori e prestazioni
- Utilizzare try/catch per lavori di batch robusti
- Parallelizzare per grandi set se necessario
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Passo 6 - Esempio completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Utilizzare casi e applicazioni
Audit di conformità
Controlla automaticamente gli archivi scansionati per parole o modelli sensibili.
HR, legale e sicurezza
Identificare la presenza di frasi riservate, nomi dei dipendenti o PII nei file di navigazione o di prova.
Analisi di tendenza e frequenza
Contare e segnalare la frequenza delle parole chiave nel tempo in grandi set di documenti.
Sfide e soluzioni comuni
Titolo originale: False Positives
Soluzione: Rifina le parole chiave e regex; riesamina manualmente i casi di margine.
Challenge 2: Grande dimensione di batch
Soluzione: Utilizza il trattamento parallelo e la gestione di errori robusta.
3 – Le lingue più diverse
Soluzione: Ajustare le impostazioni di riconoscimento e le liste di parole chiave per pacchetto linguistico.
Considerazioni di prestazioni
- I lavori di batch possono funzionare a lungo per grandi archivi – monitor CPU, disco e log
- Parallelizzare se necessario per un elevato percentuale
- Inserisci tutti i risultati per la revisione e il rispetto
Migliori pratiche
- Ristrutturare e aggiornare regolarmente le liste di parole chiave
- Errore automatico di registrazione e segnalazione
- Test di campioni di archivi rappresentativi
- Log sicuri e risultati di ricerca
Scenari avanzati
Scenario 1: Ricerca e evidenza i risultati in PDF
Esportare immagini con le parole chiave trovate evidenziate (post-processing personalizzato).
Scenario 2: Calendario Regolare Batch Keyword Audits
Lavoro automatico per essere eseguito di notte o settimanale per la conformità.
conclusione
Aspose.OCR Image Text Finder per .NET consente una potente, automatizzata raccolta di parole chiave e di ricerca dei modelli – supportando la conformità, la sicurezza e l’analisi delle tendenze in tutti gli archivi di immagini.
See Aspose.OCR per .NET API Reference per esempi di ricerca di testo avanzato.