Jak hledat více klíčových slov nebo vzorů ve snímcích
Vyhledávání více klíčových slov nebo textových vzorů ve velkých obrázkových archivech je nezbytné pro dodržování, bezpečnost a digitální objev. Aspose.OCR Image Text Finder pro .NET usnadňuje srovnání snímků skenování pro seznamy keywords nebo regex vzorců.
Reálný světový problém
Manuální přehled obrázků pro více termínů (např. jména, ID, důvěrné fráze) je pomalý a nedůvěryhodný, zejména přes tisíce souborů.
Řešení přehled
Automatické detekce spuštěním více klíčových slov nebo regex vyhledávání na snímcích. hlášení nebo jednání o zápasech pro dodržování, HR, nebo digitální forenzní použití případů.
Předpoklady
- Visual Studio 2019 nebo novější
- .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
- Aspose.OCR pro .NET z NuGet
PM> Install-Package Aspose.OCR
krok za krokem implementace
Krok 1: Instalace a nastavení ASPOSE.OCR
using Aspose.OCR;
Krok 2: Definujte klíčová slova nebo vzorky
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Krok 3: Vytvořte vyhledávací obrázky pro klíčová slova / patterny
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Krok 4: Přihlaste se a aktivujte zápasy
- Uložit výsledky do CSV, odeslat upozornění, nebo vyvolat pracovní tok na zápas.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Krok 5: Řešení chyb a výkon
- Použijte try/catch pro robustní batch práce
- Paralelizace pro velké sety v případě potřeby
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Krok 6: Kompletní příklad
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Použití případů a aplikací
Audity shody
Automaticky zkontrolujte skenované archivy pro černé slovo nebo citlivé vzory.
HR, právní a bezpečnostní
Zjistěte přítomnost důvěrných frází, jmen zaměstnanců nebo PII v souborech nebo dokladu.
Trendová a frekvenční analýza
Spočítat a hlásit frekvenci klíčových slov v průběhu času ve velkých souborech dokumentů.
Společné výzvy a řešení
Výzva 1: Falešné pozitivy
Rozhodnutí: Refinujte klíčová slova a regex; manuálně přezkoumejte okrajové případy.
Výzva 2: Velký batch velikost
Rozhodnutí: Použijte paralelní zpracování a robustní řešení chyb.
Výzva 3: Množství jazyků
Rozhodnutí: Přizpůsobte nastavení rozpoznávání a seznamy klíčových slov podle jazykového balíčku.
Úvahy o výkonu
- Batch práce může probíhat dlouho pro velké archivy – monitor CPU, disk a záznamy
- Paralyzujte, pokud je to nutné pro vysoký průtok
- Záznam všech výsledků pro přezkum a dodržování
Nejlepší postupy
- Čištění a aktualizace seznamů klíčových slov pravidelně
- Automatické přihlašování a hlášení chyb
- Testování reprezentativních archivních vzorků
- Bezpečné záznamy a výsledky vyhledávání
Pokročilé scénáře
Scénář 1: Vyhledávání a zdůrazňování výsledků v Output PDF
Export obrázků s nalezenými klíčovými slovy zdůrazněnými (k dispozici po zpracování).
Scénář 2: Plánování pravidelných auditů klíčových slov
Automatické práce pro noční nebo týdenní provádění pro dodržování požadavků.
závěr
Aspose.OCR Image Text Finder pro .NET umožňuje výkonné, automatizované vyhledávání klíčových slov a vzorů – podporuje souladu, bezpečnost a analýzu trendů v archivech obrázků.
See Aspose.OCR pro .NET API Reference Pro pokročilé textové vyhledávání příkladů.