Kako pronaći više ključnih riječi ili uzoraka u slikama

Kako pronaći više ključnih riječi ili uzoraka u slikama

Istraživanje više ključnih riječi ili tekstnih uzoraka u velikim arhivima slike ključno je za usklađenost, sigurnost i digitalno otkrivanje.Aspose.OCR Image Text Finder za .NET olakšava prikupljanje skeniranih slika za popise s ključnim riječima ili regex uzorak.

Real-svjetski problem

Ručni pregled slika za više izraza (npr. imena, ID-a, povjerljive rečenice) je usporen i nepovjeren, osobito preko tisuća datoteka.

Pregled rješenja

Automatsko otkrivanje provođenjem više ključnih riječi ili regex pretraživanja na setovima slika. izvješćivanje ili djelovanje na utakmicama za usklađenost, HR, ili digitalne forensike upotrebe slučajeva.

Preduzeća

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
PM> Install-Package Aspose.OCR

Korak po korak provedba

Korak 1: Instaliranje i konfiguracija Aspose.OCR

using Aspose.OCR;

Korak 2: Definicija ključnih riječi ili uzoraka

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Korak 3: Batch pretraživanja slika za ključne riječi/Patterns

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Korak 4: Prijavite se i djelujte na utakmicama

  • Sačuvajte rezultate u CSV, pošaljite upozorenja ili pokrenite tok rada na meču.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Korak 5: Rješavanje pogrešaka i učinkovitost

  • Koristite try/catch za robustne batch radove
  • Paralelizacija za velike setove ako je potrebno
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Četvrti korak: potpuni primjer

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Korištenje slučajeva i aplikacija

Revizija sukladnosti

Automatski provjerite skenirane arhive za crne riječi ili osjetljive uzorke.

HR, pravni i sigurnosni

Otkrijte prisutnost povjerljivih izraza, imena zaposlenika ili PII-a u dosjeima na brodu ili dokazima.

Analiza trendova i frekvencija

Brojiti i prijaviti frekvenciju ključnih riječi s vremenom u velikim skupovima dokumenata.

Zajednički izazovi i rješenja

Izazov 1: lažna pozitivnost

Rješenje: Refinirajte ključne riječi i regex; ručno pregledajte okrugle slučajeve.

Izazov 2: Veliki batch veličina

Rješenje: Koristite paralelnu obradu i čvrstu rješavanje pogrešaka.

Izazov 3: Mnogobrojni jezik

Rješenje: Prilagodite postavke prepoznavanja i popise ključnih riječi po jeziku.

Razmatranje učinkovitosti

  • Batch radovi mogu trajati dugo za velike arhive – monitor CPU, disk i logovi
  • Paralelizirajte ako je potrebno za visoku prolaznost
  • Prijavite sve rezultate za pregled i usklađenost

Najbolje prakse

  • Čišćenje i ažuriranje lista ključnih riječi redovito
  • Automatsko prijavljivanje i izvješćivanje o pogreškama
  • Ispitivanje reprezentativnih arhivskih uzoraka
  • Sigurni logovi i rezultati pretraživanja

Napredni scenariji

Scenarij 1: Rezultati pretraživanja i naglašavanja u PDF izlasku

Izvoz slike s pronađenim ključnim riječima istaknuta (na raspolaganju post-procesiranje).

Scenarij 2: Raspored redovnih batch ključnih riječi revizije

Automatska radna mjesta za noćno ili tjedno za usklađenost.

zaključak

Aspose.OCR Image Text Finder za .NET omogućuje moćno, automatizirano pretraživanje ključnih riječi i uzoraka – podržavajući usklađenost, sigurnost i analizu trendova u arhivima slike.

See Aspose.OCR za .NET API reference Za napredne primjere pretraživanja teksta.

 Hrvatski