Làm thế nào để tìm kiếm nhiều từ khóa hoặc mẫu trong hình ảnh

Làm thế nào để tìm kiếm nhiều từ khóa hoặc mẫu trong hình ảnh

Tìm kiếm nhiều từ khóa hoặc mô hình văn bản trong các tập tin hình ảnh lớn là rất quan trọng đối với sự tuân thủ, bảo mật và phát hiện kỹ thuật số. Aspose.OCR Image Text Finder for .NET làm cho nó dễ dàng để thu thập các bức ảnh quét cho danh sách từ khoá hoặc mẫu regex.

Vấn đề thế giới thực

Kiểm tra hình ảnh bằng tay cho nhiều thuật ngữ (ví dụ, tên, ID, cụm từ bí mật) là chậm và không đáng tin cậy, đặc biệt là trên hàng ngàn tệp.

Giải pháp Overview

Tự động phát hiện bằng cách chạy nhiều từ khóa hoặc regex tìm kiếm trên các bộ ảnh. Báo cáo hoặc hành động trên trận đấu để tuân thủ, nhân sự, hoặc các trường hợp sử dụng pháp luật kỹ thuật số.

Nguyên tắc

  • Visual Studio 2019 hoặc hơn
  • .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
  • Aspose.OCR cho .NET từ NuGet
PM> Install-Package Aspose.OCR

Chế độ thực hiện từng bước

Bước 1: Cài đặt và cấu hình Aspose.OCR

using Aspose.OCR;

Bước 2: Định nghĩa từ khóa hoặc mô hình của bạn

List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport

Bước 3: Kết hợp hình ảnh tìm kiếm cho từ khóa / mô hình

string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string keyword in keywords)
    {
        bool found = ocr.ImageHasText(file, keyword, settings);
        if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
    }
    foreach (string pattern in regexPatterns)
    {
        bool found = ocr.ImageHasText(file, pattern, settings);
        if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
    }
}

Bước 4: Đăng ký và hành động trên trận đấu

  • Lưu kết quả vào CSV, gửi cảnh báo, hoặc kích hoạt dòng công việc trên trận đấu.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");

Bước 5: Xử lý lỗi và hiệu suất

  • Sử dụng try/catch cho công việc tăng cường
  • Đồng bộ cho các bộ lớn nếu cần thiết
try
{
    // Searching logic
}
catch (Exception ex)
{
    File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}

Bước 6: Hiển thị đầy đủ

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
        List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
        try
        {
            string[] files = Directory.GetFiles("./input", "*.png");
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();
            foreach (string file in files)
            {
                foreach (string keyword in keywords)
                {
                    bool found = ocr.ImageHasText(file, keyword, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
                }
                foreach (string pattern in regexPatterns)
                {
                    bool found = ocr.ImageHasText(file, pattern, settings);
                    if (found)
                        File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
                }
            }
        }
        catch (Exception ex)
        {
            File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
        }
    }
}

Sử dụng trường hợp và ứng dụng

kiểm toán tuân thủ

Tự động kiểm tra các tập tin được quét cho các từ trong danh sách đen hoặc các mẫu nhạy cảm.

HR, pháp lý và an ninh

Khám phá sự hiện diện của các cụm từ bí mật, tên nhân viên, hoặc PII trong các tệp trên máy bay hoặc bằng chứng.

Phân tích xu hướng và tần số

Tính toán và báo cáo tần số từ khóa theo thời gian trong các tập tin tài liệu lớn.

Những thách thức và giải pháp chung

Lời bài hát: False Positives

** Giải pháp:** Xác định các từ khóa và regex; xem xét các trường hợp cạnh bằng tay.

Thách thức 2: Big Batch Size

  • Giải pháp: * Sử dụng việc xử lý song song và quản lý lỗi mạnh mẽ.

Thách thức 3: Nhiều ngôn ngữ

** Giải pháp:** Cài đặt nhận dạng và danh sách từ khóa theo nhóm ngôn ngữ.

Các tính toán hiệu suất

  • Các công việc của bộ sưu tập có thể chạy lâu cho các tập tin lớn – CPU màn hình, đĩa và hồ sơ
  • Parallelize nếu cần thiết cho công suất cao
  • Đăng ký tất cả các kết quả để xem xét và tuân thủ

Thực hành tốt nhất

  • Xóa và cập nhật danh sách từ khóa thường xuyên
  • Tự động lỗi logging và báo cáo
  • Kiểm tra mẫu hồ sơ đại diện
  • Đăng ký an toàn và kết quả tìm kiếm

kịch bản tiên tiến

Kịch bản 1: Tìm kiếm và nhấn mạnh kết quả trong Output PDF

Xuất xuất hình ảnh với các từ khóa được tìm thấy được nhấn mạnh (custom post-processing).

Kịch bản 2: Kế hoạch kiểm toán từ khóa Batch thường xuyên

Làm việc tự động để chạy vào ban đêm hoặc hàng tuần để tuân thủ.

Kết luận

Aspose.OCR Image Text Finder cho .NET cho phép sử dụng các cụm từ khóa và mô hình tự động mạnh mẽ – hỗ trợ sự tuân thủ, bảo mật và phân tích xu hướng trên các tập tin hình ảnh.

See Aspose.OCR cho .NET API Reference cho các ví dụ tìm kiếm văn bản tiên tiến.

 Tiếng Việt