Как построить автоматизированную PII или трубу редактирования ключевых слов с .NET

Как построить автоматизированную PII или трубу редактирования ключевых слов с .NET

Редактирование персонально идентифицируемой информации (PII) и чувствительных ключевых слов в сканированных изображениях имеет решающее значение для конфиденциальности, правовых и соблюдения операций. Aspose.OCR Image Text Finder для .NET позволяет автоматизировать обнаружение и редактировку в рабочих потоках.

Реальные мировые проблемы

Ручное редактирование конфиденциальных данных в сканированных архивах является медленным, ошибочным и дорогостоящим.Автоматизация необходима для обеспечения надежного и последовательного маскирования для аудитов соблюдения и частной жизни.

Решение обзор

Автоматически обнаружите PII или ключевые слова с помощью OCR, затем маскируйте, измельчайте или заменяйте их на изображении и сохраните редактированные результаты, обеспечивая конфиденциальность и безопасность.

Предупреждения

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
  • PII или список ключевых слов в текстовом файле
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Подготовка списка PII / ключевых слов и вводных изображений

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Шаг 2: Поиск PII / Ключевые слова

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Шаг 3: Редактировать или маскировать обнаруженные термины

  • В то время как Aspose.OCR выявляет термины, редактирование должно применяться с библиотеками изображений (например, System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Шаг 4: Загрузите редактированные файлы

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Шаг 5: Полный пример рабочего потока батареи

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Примечание: Для точного картографирования региона используйте АПИ распознавания региона Aspose.OCR, чтобы получить координаты обнаруженных текстовых блоков, а затем точно маскировать.

Используйте случаи и приложения

Юридическое и соответствие

Автоматическое оформление контрактов, HR-файлов и регулируемых документов.

Аудит конфиденциальности

Убедитесь, что PII не вытекает в сканированных архивах, наборных или доказательственных файлах.

Батч DLP (Превенция потери данных)

Прекратите случайное распространение или хранение чувствительной информации в сканированных изображениях.

Общие вызовы и решения

Проблема 1: Найти точные текстовые регионы

Решение: Используйте OCR Text Region Output и Карта для маскирования координатов изображения.

Проблема 2: Фальшивые положительные / отрицательные

Решение: Сделайте списки ключевых слов, валидируйте редактированные изображения и выполняйте аудиты.

Проблема 3: Размер рабочего места

Решение: Параллелизовать и автоматизировать обработку ошибок по шкале.

Рассмотрим производительность

  • Региональное расчетное и изобразительное письмо может быть медленным для больших комплектов — при необходимости используйте асинк.
  • Зарегистрируйте все редакции для проверки соответствия

Лучшие практики

  • Тестирование регионов с точностью с разнообразными изображениями
  • Регулярно обновляют списки ключевых слов для новых моделей PII
  • Защитите как оригинальные, так и редактированные файлы
  • Проверка с помощью ручного спот-чека

Развитые сценарии

Сценарий 1: Блур вместо Блэкаута

Используйте фильтры изображения для промывания обнаруженных областей для более тонкого маскирования.

Сценарий 2: Настройка / Замена текста

Заполните специальную этикетку (например, «REDACTED») вместо черного ящика.

Заключение

Aspose.OCR Image Text Finder для .NET позволяет автоматизировать редактирование PII / ключевых слов по масштабу, снижая правовые риски и обеспечивая конфиденциальность в архивах изображений.

Для точных региональных АПИ и редакционной интеграции, см. ASPOSE.OCR для .NET API .

 Русский