Comment rechercher plusieurs mots-clés ou modèles dans les images
La recherche de plusieurs mots-clés ou de modèles de texte dans les grands archives d’image est cruciale pour la conformité, la sécurité et la découverte numérique. Aspose.OCR Image Text Finder pour .NET facilite l’enregistrement des images de scan pour les listes de mots‐clé ou modères de regex.
Problème du monde réel
La revue manuelle des images pour plusieurs termes (par exemple, noms, identifiants, phrases confidentielles) est lente et incroyable, surtout sur des milliers de fichiers.
Vue de la solution
Détection automatique en effectuant des recherches multi-clés ou regex sur des lots d’images. raconter ou agir sur les matchs pour la conformité, les ressources humaines, ou les cas utilisés par la forensicité numérique.
Principaux
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
using Aspose.OCR;
Étape 2 : Définissez vos mots clés ou vos modèles
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Étape 3: Batch Images de recherche pour les mots-clés / paramètres
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Étape 4 : Inscrivez-vous et agissez sur les matchs
- Enregistrer les résultats dans CSV, envoyer des alertes ou déclencher le flux de travail sur match.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Étape 5 : Traitement des erreurs et performance
- Utilisez try/catch pour des emplois de batch robustes
- Parallèlement pour les grands ensembles si nécessaire
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Étape 6 : Exemple complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Utiliser les cas et les applications
Audits de conformité
Vérifier automatiquement les archives scanées pour les mots en liste noire ou les modèles sensibles.
HR, juridique et sécurité
Détecter la présence de phrases confidentielles, de noms d’employés ou de PII dans les fichiers de navigation ou des preuves.
Analyse de tendance et de fréquence
Compter et signaler la fréquence des mots-clés au fil du temps dans les grands ensembles de documents.
Défis communs et solutions
Défi 1 : Faux positifs
Solution: Réfine les mots-clés et le regex; réviser les cas de bord manuellement.
Défi 2 : Grande taille de batch
Solution: Utilisez un traitement parallèle et une gestion robuste des erreurs.
Défi 3 : Les langues multiples
Solution: Ajuster les paramètres de reconnaissance et les listes de mots-clés par langage.
Considérations de performance
- Les tâches de batch peuvent durer longtemps pour les grands archives – CPU moniteur, disque et logs
- Parallèlement si nécessaire pour une puissance élevée
- Télécharger tous les résultats pour l’examen et la conformité
Migliori pratiche
- Nettoyer et mettre à jour régulièrement les listes de mots-clés
- L’erreur automatique enregistrée et en rapport
- Test sur des échantillons d’archives représentatives
- Logs sécurisés et résultats de recherche
Scénarios avancés
Scénario 1: Rechercher et souligner les résultats dans la sortie PDF
Exporter des images avec les mots-clés trouvés soulignés (traitement post-custom).
Scénario 2: Calendrier des audits de mots-clés réguliers
Travail automatique à effectuer la nuit ou hebdomadaire pour la conformité.
Conclusion
Aspose.OCR Image Text Finder pour .NET permet une recherche de mots-clés et de modèles automatisés puissants, qui soutiennent la conformité, la sécurité et l’analyse des tendances dans les archives d’images.
See Aspose.OCR pour la référence API .NET Pour les exemples de recherche de texte avancé.