Cum să căutați mai multe cuvinte cheie sau modele în imagini

Cum să căutați mai multe cuvinte cheie sau modele în imagini

Căutarea mai multor cuvinte cheie sau modele de text în arhivele de imagini mari este esențială pentru conformitate, securitate și descoperire digitală. Aspose.OCR Image Text Finder pentru .NET face ușor să se batch imaginile de scanare pentru listele de cuvinte-cheie ori modele regex.

Problema lumii reale

Revizuirea manuală a imaginilor pentru mai multe termeni (de exemplu, nume, ID-uri, fraze confidențiale) este lentă și incredibilă, mai ales peste mii de fișiere.

Soluție de ansamblu

Detectarea automată prin executarea căutărilor cu mai multe cuvinte cheie sau regex pe batch-uri de imagini. raportează sau acționează pe meciuri pentru conformitate, HR sau cazurile de utilizare a forenselor digitale.

Prevederile

  • Visual Studio 2019 sau mai târziu
  • .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
  • Aspose.OCR pentru .NET de la NuGet
PM> Install-Package Aspose.OCR

Implementarea pas cu pas

Pasul 1: Instalați și configurați Aspose.OCR

using Aspose.OCR;

Pasul 2: Definiți cuvintele cheie sau modelele dvs.

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Pasul 3: Batch imagini de căutare pentru cuvinte cheie / parametri

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Pasul 4: Înregistrați-vă și acționați pe meciuri

  • Salvați rezultatele în CSV, trimiteți alerte sau declanșați fluxul de lucru pe meci.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Pasul 5: Tratarea erorilor și performanța

  • Utilizați try/catch pentru locuri de muncă de batch robuste
  • Paralelizați pentru seturi mari dacă este necesar
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Pasul 6: Exemplu complet

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Folosește cazuri și aplicații

Auditul de conformitate

Verificați automat arhivele scanate pentru cuvinte pe listă neagră sau modele sensibile.

HR, legal și securitate

Detectați prezența frazelor confidențiale, a numelor angajaților sau a PII în fișierele de navigare sau dovezi.

Analiza tendinței și a frecvenței

Numărați și raportați frecvența cuvintelor cheie în timp în seturile de documente mari.

Provocări și soluții comune

Cuvânt cheie: falsele pozitive

Soluție: Refine cuvintele cheie și regex; revizuiește cazurile de margine manual.

Cuvânt cheie: Big Batch Size

Soluție: Utilizați procesarea paralelă și gestionarea greșelilor robuste.

Cuvânt cheie 3: Limbile multiple

Soluție: Ajustăm setările de recunoaștere și listele cuvintelor cheie pe pachet lingvistic.

Considerații de performanță

  • Lucrările de batch pot funcționa mult pentru fișierele mari - CPU monitor, disc și log-uri
  • Paralelizați dacă este necesar pentru o putere ridicată
  • Înregistrați toate rezultatele pentru revizuire și conformitate

Cele mai bune practici

  • Curățați și actualizați în mod regulat listele de cuvinte cheie
  • Înregistrarea și raportarea automată a erorilor
  • Testarea amprentelor de arhivă reprezentative
  • Loguri sigure și rezultate de căutare

Scenarii avansate

Scenariul 1: Rezultatele de căutare și evidențiere în PDF

Exportați imagini cu cuvinte cheie găsite evidențiate (post-procesare personalizată).

Scenariul 2: Calendarul regulat Batch Keyword Audits

Lucrarea automată se desfășoară pe timp de noapte sau săptămânal pentru conformitate.

concluziile

Aspose.OCR Image Text Finder pentru .NET permite un set de cuvinte cheie și căutări de modele puternice și automatizate, susținând conformitatea, securitatea și analiza tendințelor în arhivele imaginii.

See Aspose.OCR pentru .NET API Referință Exemple avansate de căutare text.

 Română