Làm thế nào để tìm kiếm nhiều từ khóa hoặc mẫu trong hình ảnh
Tìm kiếm nhiều từ khóa hoặc mô hình văn bản trong các tập tin hình ảnh lớn là rất quan trọng đối với sự tuân thủ, bảo mật và phát hiện kỹ thuật số. Aspose.OCR Image Text Finder for .NET làm cho nó dễ dàng để thu thập các bức ảnh quét cho danh sách từ khoá hoặc mẫu regex.
Vấn đề thế giới thực
Kiểm tra hình ảnh bằng tay cho nhiều thuật ngữ (ví dụ, tên, ID, cụm từ bí mật) là chậm và không đáng tin cậy, đặc biệt là trên hàng ngàn tệp.
Giải pháp Overview
Tự động phát hiện bằng cách chạy nhiều từ khóa hoặc regex tìm kiếm trên các bộ ảnh. Báo cáo hoặc hành động trên trận đấu để tuân thủ, nhân sự, hoặc các trường hợp sử dụng pháp luật kỹ thuật số.
Nguyên tắc
- Visual Studio 2019 hoặc hơn
- .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
- Aspose.OCR cho .NET từ NuGet
PM> Install-Package Aspose.OCR
Chế độ thực hiện từng bước
Bước 1: Cài đặt và cấu hình Aspose.OCR
using Aspose.OCR;
Bước 2: Định nghĩa từ khóa hoặc mô hình của bạn
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
Bước 3: Kết hợp hình ảnh tìm kiếm cho từ khóa / mô hình
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
Bước 4: Đăng ký và hành động trên trận đấu
- Lưu kết quả vào CSV, gửi cảnh báo, hoặc kích hoạt dòng công việc trên trận đấu.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
Bước 5: Xử lý lỗi và hiệu suất
- Sử dụng try/catch cho công việc tăng cường
- Đồng bộ cho các bộ lớn nếu cần thiết
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
Bước 6: Hiển thị đầy đủ
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
Sử dụng trường hợp và ứng dụng
kiểm toán tuân thủ
Tự động kiểm tra các tập tin được quét cho các từ trong danh sách đen hoặc các mẫu nhạy cảm.
HR, pháp lý và an ninh
Khám phá sự hiện diện của các cụm từ bí mật, tên nhân viên, hoặc PII trong các tệp trên máy bay hoặc bằng chứng.
Phân tích xu hướng và tần số
Tính toán và báo cáo tần số từ khóa theo thời gian trong các tập tin tài liệu lớn.
Những thách thức và giải pháp chung
Lời bài hát: False Positives
** Giải pháp:** Xác định các từ khóa và regex; xem xét các trường hợp cạnh bằng tay.
Thách thức 2: Big Batch Size
- Giải pháp: * Sử dụng việc xử lý song song và quản lý lỗi mạnh mẽ.
Thách thức 3: Nhiều ngôn ngữ
** Giải pháp:** Cài đặt nhận dạng và danh sách từ khóa theo nhóm ngôn ngữ.
Các tính toán hiệu suất
- Các công việc của bộ sưu tập có thể chạy lâu cho các tập tin lớn – CPU màn hình, đĩa và hồ sơ
- Parallelize nếu cần thiết cho công suất cao
- Đăng ký tất cả các kết quả để xem xét và tuân thủ
Thực hành tốt nhất
- Xóa và cập nhật danh sách từ khóa thường xuyên
- Tự động lỗi logging và báo cáo
- Kiểm tra mẫu hồ sơ đại diện
- Đăng ký an toàn và kết quả tìm kiếm
kịch bản tiên tiến
Kịch bản 1: Tìm kiếm và nhấn mạnh kết quả trong Output PDF
Xuất xuất hình ảnh với các từ khóa được tìm thấy được nhấn mạnh (custom post-processing).
Kịch bản 2: Kế hoạch kiểm toán từ khóa Batch thường xuyên
Làm việc tự động để chạy vào ban đêm hoặc hàng tuần để tuân thủ.
Kết luận
Aspose.OCR Image Text Finder cho .NET cho phép sử dụng các cụm từ khóa và mô hình tự động mạnh mẽ – hỗ trợ sự tuân thủ, bảo mật và phân tích xu hướng trên các tập tin hình ảnh.
See Aspose.OCR cho .NET API Reference cho các ví dụ tìm kiếm văn bản tiên tiến.