Bagaimana untuk mencari pelbagai kata kunci atau corak dalam imej
Mencari pelbagai kata kunci atau corak teks dalam arkib imej yang besar adalah penting untuk pematuhan, keselamatan, dan penemuan digital. Aspose.OCR Image Text Finder untuk .NET memudahkan anda untuk membungkus gambar pemindaian untuk senarai kata laluan atau model regex.
Masalah dunia sebenar
Ulasan manual imej untuk pelbagai istilah (contohnya, nama, ID, frasa rahsia) adalah perlahan dan tidak boleh dipercayai, terutamanya di seluruh beribu-ribu fail.
Gambaran keseluruhan penyelesaian
Pengesanan automatik dengan menjalankan pelbagai kata kunci atau regex carian pada batch imej. melaporkan atau bertindak pada perlawanan untuk pematuhan, HR, atau digital forensics menggunakan kes.
Prerequisites
- Visual Studio 2019 atau seterusnya
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET daripada NuGet
PM> Install-Package Aspose.OCR
Pelaksanaan langkah demi langkah
Langkah 1: Pemasangan dan Konfigurasi Aspose.OCR
using Aspose.OCR;
Langkah 2: Tentukan kata kunci atau corak anda
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Langkah 3: Batch imej carian untuk kata kunci / pattern
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Langkah 4: Log dan bertindak pada perlawanan
- Simpan hasil ke CSV, hantar amaran, atau melancarkan aliran kerja pada perlawanan.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Langkah 5: Menguruskan kesilapan dan prestasi
- Gunakan try/catch untuk kerja batch yang kukuh
- Perbandingan untuk set besar jika perlu
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Langkah 6 : Contoh Lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Penggunaan Kasus dan Permohonan
Audit Kepatuhan
Semak secara automatik fail yang disemak untuk kata-kata berdaftar hitam atau corak sensitif.
HR, Undang-undang dan Keselamatan
Mengesan kehadiran frasa rahsia, nama pekerja, atau PII dalam fail pelayaran atau bukti.
Analisis trend dan frekuensi
Mengira dan melaporkan frekuensi kata kunci dari masa ke masa dalam set dokumen yang besar.
Tantangan dan Penyelesaian Bersama
Tantangan 1 : Positif palsu
** Penyelesaian:** Refine kata kunci dan regex; meninjau kes edge secara manual.
Tantangan 2: saiz batch besar
** Penyelesaian:** Gunakan pemprosesan serentak dan pengendalian ralat yang kukuh.
Tantangan 3 : Bahasa Melayu
** Penyelesaian:** Menyesuaikan tetapan pengenalan dan senarai kata kunci bagi setiap set bahasa.
Pertimbangan prestasi
- Kerja-kerja batch boleh berjalan lama untuk arkib besar - CPU monitor, cakera, dan log
- Perbandingan jika diperlukan untuk peredaran tinggi
- Mendaftarkan semua keputusan untuk ulasan dan pematuhan
amalan terbaik
- Membersihkan dan mengemas kini senarai kata kunci secara berkala
- Kesilapan automatik log dan melaporkan
- Ujian pada sampel arkib perwakilan
- Log yang selamat dan hasil carian
Senario lanjutan
Senario 1: Mencari dan Menonjolkan Hasil dalam Output PDF
Mengeksport imej dengan kata kunci yang ditemui ditekankan (post-processing tersuai).
Senario 2: Jadual Audit Kata Kunci Batch Berterusan
Pekerjaan automatik untuk menjalankan malam atau seminggu untuk pematuhan.
Conclusion
Aspose.OCR Image Text Finder untuk .NET membolehkan kata kunci batch yang berkuasa dan automatik dan carian corak – menyokong pematuhan, keselamatan, dan analisis trend di seluruh arkib imej.
See Aspose.OCR untuk .NET API Rujukan untuk contoh carian teks lanjutan.