Cara mencari beberapa kata kunci atau pola dalam gambar
Mencari beberapa kata kunci atau corak teks dalam arsip gambar yang besar sangat penting untuk pematuhan, keamanan, dan penemuan digital. Aspose.OCR Image Text Finder untuk .NET memudahkan untuk menggabungkan gambar pemindaian untuk daftar kata-kata utama atau pola regex.
Masalah dunia nyata
Ulasan manual gambar untuk beberapa istilah (misalnya nama, ID, frasa rahasia) lambat dan tidak dapat dipercaya, terutama di sekitar ribuan file.
Penyelesaian Overview
Deteksi otomatis dengan menjalankan banyak kata kunci atau regex pencarian pada set gambar. melaporkan atau bertindak pada pertandingan untuk pematuhan, HR, atau kasus penggunaan hukum digital.
Persyaratan
- Visual Studio 2019 atau lebih baru
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET dari NuGet
PM> Install-Package Aspose.OCR
Implementasi langkah demi langkah
Langkah 1: Menginstal dan mengkonfigurasi Aspose.OCR
using Aspose.OCR;
Langkah 2: Tentukan kata kunci atau pola Anda
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Langkah 3: Batch Search Images untuk Kata Kunci/Patterns
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Langkah 4: Mendaftar dan bertindak pada pertandingan
- Simpan hasil ke CSV, mengirim peringatan, atau memicu aliran kerja pada pertandingan.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Langkah 5: Mengendalikan kesalahan dan kinerja
- Gunakan try/catch untuk pekerjaan batch yang kuat
- Perbandingan untuk set besar jika perlu
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Langkah 6: Contoh lengkap
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Menggunakan kasus dan aplikasi
Audit Kepatuhan
Secara otomatis memeriksa file yang dipindai untuk kata-kata berdaftar hitam atau corak sensitif.
HR, Hukum dan Keamanan
Mengidentifikasi kehadiran frasa rahasia, nama karyawan, atau PII di atas kapal atau file bukti.
Analisis Trend dan Frekuensi
Menghitung dan melaporkan frekuensi kata kunci dari waktu ke waktu dalam set dokumen besar.
Tantangan dan Solusi Umum
Tantangan 1: Positif palsu
** Solusi:** Refine kata kunci dan regex; review edge kasus secara manual.
Tantangan 2: ukuran batch besar
** Solusi:** Gunakan pemrosesan paralel dan pengendalian kesalahan yang kuat.
Tantangan 3: Banyak bahasa
** Solusi:** Sesuai pengaturan pengenalan dan daftar kata kunci per paket bahasa.
Pertimbangan kinerja
- Pekerjaan batch dapat berjalan lama untuk arsip besar – CPU monitor, cakera, dan log
- Paralel jika diperlukan untuk peredaran tinggi
- Daftar semua hasil untuk review dan pematuhan
Praktik Terbaik
- Membersihkan dan memperbarui daftar kata kunci secara teratur
- Automatic error logging dan melaporkan
- Ujian pada sampel arsip representatif
- Log aman dan hasil pencarian
Skenario Lanjutan
Skenario 1: Hasil pencarian dan penekanan dalam output PDF
Ekspor gambar dengan kata kunci yang ditemukan ditekankan (post-processing yang disesuaikan).
Skenario 2: Jadual Audit Kata Kunci Batch
Pekerjaan otomatis untuk berjalan malam atau mingguan untuk pematuhan.
Kesimpulan
Aspose.OCR Image Text Finder untuk .NET memungkinkan kata kunci dan pencarian pattern yang kuat dan otomatis – mendukung pematuhan, keamanan, dan analisis trend di seluruh arsip gambar.
See Aspose.OCR untuk .NET API Referensi Untuk contoh pencarian teks lanjutan.