Jak wyszukać kilka słów kluczowych lub wzorców w obrazach
Poszukiwanie wielu słów kluczowych lub wzorców tekstowych w dużych archiwach obrazów jest niezbędne dla zgodności, bezpieczeństwa i cyfrowego odkrycia. Aspose.OCR Image Text Finder dla .NET ułatwia skanowanie zdjęć do list słowami kluczymi lub wzory regex.
Problem świata rzeczywistego
Ręczny przegląd obrazów dla wielu terminów (np. nazwiska, identyfikatorów, poufnych fraz) jest powolny i niezawodny, zwłaszcza w tysiącach plików.
Przegląd rozwiązania
Automatyczne wykrywanie poprzez prowadzenie wielu słów kluczowych lub regex wyszukiwania na zestawach obrazów. zgłaszać lub działać na meczach dla zgodności, HR, lub cyfrowej medycyny prawniczej użyte przypadki.
Warunki
- Visual Studio 2019 lub później
- .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
- Aspose.OCR dla .NET od NuGet
PM> Install-Package Aspose.OCR
Wdrażanie krok po kroku
Krok 1: Instalacja i konfiguracja Aspose.OCR
using Aspose.OCR;
Krok 2: Określ swoje słowa kluczowe lub wzorce
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Krok 3: Zestaw zdjęć wyszukiwania dla słów kluczowych / parametrów
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Krok 4: Zarejestruj się i działaj na meczach
- Zapisz wyniki w CSV, wysłać ostrzeżenia lub uruchomić przepływ pracy na meczu.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Krok 5: Rozwiązywanie błędów i wydajność
- Użyj try/catch dla robustnych miejsc pracy
- Paralelizuj dla dużych zestawów, jeśli to konieczne
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Krok 6: Pełny przykład
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Korzystanie z przypadków i aplikacji
Audyty zgodności
Automatycznie sprawdź skanowane archiwum dla czarnej listy słów lub wrażliwych wzorów.
HR, Prawo i bezpieczeństwo
Zidentyfikuj obecność poufnych fraz, nazw pracowników lub PII w plikach na pokładzie lub dowodów.
Analiza trendów i częstotliwości
Liczanie i zgłaszanie częstotliwości słów kluczowych w czasie w dużych zestawach dokumentów.
Wspólne wyzwania i rozwiązania
Wyzwanie 1: fałszywe pozytywy
Rozwiązanie: Odśwież słowa kluczowe i regex; przeglądaj sprawy edge ręcznie.
Wyzwanie 2: Wielki rozmiar batch
Rozwiązanie: Użyj równoległego przetwarzania i robustego zarządzania błędami.
Wyzwanie 3: Wiele języków
Rozwiązanie: Dostosuj ustawienia rozpoznawania i listy słów kluczowych według zestawu językowego.
uwzględnienie wydajności
- Prace w zestawie mogą działać długo dla dużych archiwów – monitorów CPU, dysków i dzienników
- Paralelizuj, jeśli jest to konieczne dla wysokiej przepustowości
- Zarejestruj wszystkie wyniki dla przeglądu i zgodności
Najlepsze praktyki
- Określenie i aktualizacja list słów kluczowych regularnie
- Automatyczne rejestrowanie i zgłaszanie błędów
- Testy na reprezentatywnych próbkach archiwów
- Bezpieczne logy i wyniki wyszukiwania
Zaawansowane scenariusze
Scenariusz 1: Wyniki wyszukiwania i podkreślenia w wydaniu PDF
Eksportuj obrazy z odnalezionymi słowami kluczowymi podkreślonymi (kustom post-processing).
Scenariusz 2: Schemat regularnych audytów słów kluczowych
Automatyczna praca do wykonywania w nocy lub tygodniowo dla zgodności.
konkluzja
Aspose.OCR Image Text Finder dla .NET umożliwia potężne, automatyczne wyszukiwanie słów kluczowych i wzorów – wspieranie zgodności, bezpieczeństwa i analizy trendów w archiwum obrazów.
See Aspose.OCR dla .NET API Referencje zaawansowanych przykładów wyszukiwania tekstów.