Kako pronaći više ključnih riječi ili uzoraka u slikama
Istraživanje više ključnih riječi ili tekstnih uzoraka u velikim arhivima slike ključno je za usklađenost, sigurnost i digitalno otkrivanje.Aspose.OCR Image Text Finder za .NET olakšava prikupljanje skeniranih slika za popise s ključnim riječima ili regex uzorak.
Real-svjetski problem
Ručni pregled slika za više izraza (npr. imena, ID-a, povjerljive rečenice) je usporen i nepovjeren, osobito preko tisuća datoteka.
Pregled rješenja
Automatsko otkrivanje provođenjem više ključnih riječi ili regex pretraživanja na setovima slika. izvješćivanje ili djelovanje na utakmicama za usklađenost, HR, ili digitalne forensike upotrebe slučajeva.
Preduzeća
- Visual Studio 2019 ili kasnije
- .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
- Aspose.OCR za .NET od NuGet
PM> Install-Package Aspose.OCR
Korak po korak provedba
Korak 1: Instaliranje i konfiguracija Aspose.OCR
using Aspose.OCR;
Korak 2: Definicija ključnih riječi ili uzoraka
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Korak 3: Batch pretraživanja slika za ključne riječi/Patterns
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Korak 4: Prijavite se i djelujte na utakmicama
- Sačuvajte rezultate u CSV, pošaljite upozorenja ili pokrenite tok rada na meču.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Korak 5: Rješavanje pogrešaka i učinkovitost
- Koristite try/catch za robustne batch radove
- Paralelizacija za velike setove ako je potrebno
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Četvrti korak: potpuni primjer
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Korištenje slučajeva i aplikacija
Revizija sukladnosti
Automatski provjerite skenirane arhive za crne riječi ili osjetljive uzorke.
HR, pravni i sigurnosni
Otkrijte prisutnost povjerljivih izraza, imena zaposlenika ili PII-a u dosjeima na brodu ili dokazima.
Analiza trendova i frekvencija
Brojiti i prijaviti frekvenciju ključnih riječi s vremenom u velikim skupovima dokumenata.
Zajednički izazovi i rješenja
Izazov 1: lažna pozitivnost
Rješenje: Refinirajte ključne riječi i regex; ručno pregledajte okrugle slučajeve.
Izazov 2: Veliki batch veličina
Rješenje: Koristite paralelnu obradu i čvrstu rješavanje pogrešaka.
Izazov 3: Mnogobrojni jezik
Rješenje: Prilagodite postavke prepoznavanja i popise ključnih riječi po jeziku.
Razmatranje učinkovitosti
- Batch radovi mogu trajati dugo za velike arhive – monitor CPU, disk i logovi
- Paralelizirajte ako je potrebno za visoku prolaznost
- Prijavite sve rezultate za pregled i usklađenost
Najbolje prakse
- Čišćenje i ažuriranje lista ključnih riječi redovito
- Automatsko prijavljivanje i izvješćivanje o pogreškama
- Ispitivanje reprezentativnih arhivskih uzoraka
- Sigurni logovi i rezultati pretraživanja
Napredni scenariji
Scenarij 1: Rezultati pretraživanja i naglašavanja u PDF izlasku
Izvoz slike s pronađenim ključnim riječima istaknuta (na raspolaganju post-procesiranje).
Scenarij 2: Raspored redovnih batch ključnih riječi revizije
Automatska radna mjesta za noćno ili tjedno za usklađenost.
zaključak
Aspose.OCR Image Text Finder za .NET omogućuje moćno, automatizirano pretraživanje ključnih riječi i uzoraka – podržavajući usklađenost, sigurnost i analizu trendova u arhivima slike.
See Aspose.OCR za .NET API reference Za napredne primjere pretraživanja teksta.