Cum să căutați mai multe cuvinte cheie sau modele în imagini
Căutarea mai multor cuvinte cheie sau modele de text în arhivele de imagini mari este esențială pentru conformitate, securitate și descoperire digitală. Aspose.OCR Image Text Finder pentru .NET face ușor să se batch imaginile de scanare pentru listele de cuvinte-cheie ori modele regex.
Problema lumii reale
Revizuirea manuală a imaginilor pentru mai multe termeni (de exemplu, nume, ID-uri, fraze confidențiale) este lentă și incredibilă, mai ales peste mii de fișiere.
Soluție de ansamblu
Detectarea automată prin executarea căutărilor cu mai multe cuvinte cheie sau regex pe batch-uri de imagini. raportează sau acționează pe meciuri pentru conformitate, HR sau cazurile de utilizare a forenselor digitale.
Prevederile
- Visual Studio 2019 sau mai târziu
- .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
- Aspose.OCR pentru .NET de la NuGet
PM> Install-Package Aspose.OCR
Implementarea pas cu pas
Pasul 1: Instalați și configurați Aspose.OCR
using Aspose.OCR;
Pasul 2: Definiți cuvintele cheie sau modelele dvs.
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Pasul 3: Batch imagini de căutare pentru cuvinte cheie / parametri
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Pasul 4: Înregistrați-vă și acționați pe meciuri
- Salvați rezultatele în CSV, trimiteți alerte sau declanșați fluxul de lucru pe meci.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Pasul 5: Tratarea erorilor și performanța
- Utilizați try/catch pentru locuri de muncă de batch robuste
- Paralelizați pentru seturi mari dacă este necesar
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Pasul 6: Exemplu complet
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Folosește cazuri și aplicații
Auditul de conformitate
Verificați automat arhivele scanate pentru cuvinte pe listă neagră sau modele sensibile.
HR, legal și securitate
Detectați prezența frazelor confidențiale, a numelor angajaților sau a PII în fișierele de navigare sau dovezi.
Analiza tendinței și a frecvenței
Numărați și raportați frecvența cuvintelor cheie în timp în seturile de documente mari.
Provocări și soluții comune
Cuvânt cheie: falsele pozitive
Soluție: Refine cuvintele cheie și regex; revizuiește cazurile de margine manual.
Cuvânt cheie: Big Batch Size
Soluție: Utilizați procesarea paralelă și gestionarea greșelilor robuste.
Cuvânt cheie 3: Limbile multiple
Soluție: Ajustăm setările de recunoaștere și listele cuvintelor cheie pe pachet lingvistic.
Considerații de performanță
- Lucrările de batch pot funcționa mult pentru fișierele mari - CPU monitor, disc și log-uri
- Paralelizați dacă este necesar pentru o putere ridicată
- Înregistrați toate rezultatele pentru revizuire și conformitate
Cele mai bune practici
- Curățați și actualizați în mod regulat listele de cuvinte cheie
- Înregistrarea și raportarea automată a erorilor
- Testarea amprentelor de arhivă reprezentative
- Loguri sigure și rezultate de căutare
Scenarii avansate
Scenariul 1: Rezultatele de căutare și evidențiere în PDF
Exportați imagini cu cuvinte cheie găsite evidențiate (post-procesare personalizată).
Scenariul 2: Calendarul regulat Batch Keyword Audits
Lucrarea automată se desfășoară pe timp de noapte sau săptămânal pentru conformitate.
concluziile
Aspose.OCR Image Text Finder pentru .NET permite un set de cuvinte cheie și căutări de modele puternice și automatizate, susținând conformitatea, securitatea și analiza tendințelor în arhivele imaginii.
See Aspose.OCR pentru .NET API Referință Exemple avansate de căutare text.