Jak hledat více klíčových slov nebo vzorů ve snímcích

Jak hledat více klíčových slov nebo vzorů ve snímcích

Vyhledávání více klíčových slov nebo textových vzorů ve velkých obrázkových archivech je nezbytné pro dodržování, bezpečnost a digitální objev. Aspose.OCR Image Text Finder pro .NET usnadňuje srovnání snímků skenování pro seznamy keywords nebo regex vzorců.

Reálný světový problém

Manuální přehled obrázků pro více termínů (např. jména, ID, důvěrné fráze) je pomalý a nedůvěryhodný, zejména přes tisíce souborů.

Řešení přehled

Automatické detekce spuštěním více klíčových slov nebo regex vyhledávání na snímcích. hlášení nebo jednání o zápasech pro dodržování, HR, nebo digitální forenzní použití případů.

Předpoklady

  • Visual Studio 2019 nebo novější
  • .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
  • Aspose.OCR pro .NET z NuGet
PM> Install-Package Aspose.OCR

krok za krokem implementace

Krok 1: Instalace a nastavení ASPOSE.OCR

using Aspose.OCR;

Krok 2: Definujte klíčová slova nebo vzorky

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Krok 3: Vytvořte vyhledávací obrázky pro klíčová slova / patterny

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Krok 4: Přihlaste se a aktivujte zápasy

  • Uložit výsledky do CSV, odeslat upozornění, nebo vyvolat pracovní tok na zápas.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Krok 5: Řešení chyb a výkon

  • Použijte try/catch pro robustní batch práce
  • Paralelizace pro velké sety v případě potřeby
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Krok 6: Kompletní příklad

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Použití případů a aplikací

Audity shody

Automaticky zkontrolujte skenované archivy pro černé slovo nebo citlivé vzory.

HR, právní a bezpečnostní

Zjistěte přítomnost důvěrných frází, jmen zaměstnanců nebo PII v souborech nebo dokladu.

Trendová a frekvenční analýza

Spočítat a hlásit frekvenci klíčových slov v průběhu času ve velkých souborech dokumentů.

Společné výzvy a řešení

Výzva 1: Falešné pozitivy

Rozhodnutí: Refinujte klíčová slova a regex; manuálně přezkoumejte okrajové případy.

Výzva 2: Velký batch velikost

Rozhodnutí: Použijte paralelní zpracování a robustní řešení chyb.

Výzva 3: Množství jazyků

Rozhodnutí: Přizpůsobte nastavení rozpoznávání a seznamy klíčových slov podle jazykového balíčku.

Úvahy o výkonu

  • Batch práce může probíhat dlouho pro velké archivy – monitor CPU, disk a záznamy
  • Paralyzujte, pokud je to nutné pro vysoký průtok
  • Záznam všech výsledků pro přezkum a dodržování

Nejlepší postupy

  • Čištění a aktualizace seznamů klíčových slov pravidelně
  • Automatické přihlašování a hlášení chyb
  • Testování reprezentativních archivních vzorků
  • Bezpečné záznamy a výsledky vyhledávání

Pokročilé scénáře

Scénář 1: Vyhledávání a zdůrazňování výsledků v Output PDF

Export obrázků s nalezenými klíčovými slovy zdůrazněnými (k dispozici po zpracování).

Scénář 2: Plánování pravidelných auditů klíčových slov

Automatické práce pro noční nebo týdenní provádění pro dodržování požadavků.

závěr

Aspose.OCR Image Text Finder pro .NET umožňuje výkonné, automatizované vyhledávání klíčových slov a vzorů – podporuje souladu, bezpečnost a analýzu trendů v archivech obrázků.

See Aspose.OCR pro .NET API Reference Pro pokročilé textové vyhledávání příkladů.

 Čeština