Как построить автоматизированную PII или трубу редактирования ключевых слов с .NET
Редактирование персонально идентифицируемой информации (PII) и чувствительных ключевых слов в сканированных изображениях имеет решающее значение для конфиденциальности, правовых и соблюдения операций. Aspose.OCR Image Text Finder для .NET позволяет автоматизировать обнаружение и редактировку в рабочих потоках.
Реальные мировые проблемы
Ручное редактирование конфиденциальных данных в сканированных архивах является медленным, ошибочным и дорогостоящим.Автоматизация необходима для обеспечения надежного и последовательного маскирования для аудитов соблюдения и частной жизни.
Решение обзор
Автоматически обнаружите PII или ключевые слова с помощью OCR, затем маскируйте, измельчайте или заменяйте их на изображении и сохраните редактированные результаты, обеспечивая конфиденциальность и безопасность.
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
- PII или список ключевых слов в текстовом файле
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Подготовка списка PII / ключевых слов и вводных изображений
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
Шаг 2: Поиск PII / Ключевые слова
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Proceed to redact in Step 3
}
}
}
Шаг 3: Редактировать или маскировать обнаруженные термины
- В то время как Aspose.OCR выявляет термины, редактирование должно применяться с библиотеками изображений (например, System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
using (var g = Graphics.FromImage(image))
{
// Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
// g.FillRectangle(Brushes.Black, x, y, width, height);
}
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
Шаг 4: Загрузите редактированные файлы
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
Шаг 5: Полный пример рабочего потока батареи
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;
class Program
{
static void Main(string[] args)
{
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Redact by overlay (simplified; see docs for bounding box)
using (var image = new Bitmap(file))
using (var g = Graphics.FromImage(image))
{
// Example: Draw rectangle where text is found (requires OCR region info)
// g.FillRectangle(Brushes.Black, x, y, width, height);
// Save redacted copy
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
}
}
}
}
}
Примечание: Для точного картографирования региона используйте АПИ распознавания региона Aspose.OCR, чтобы получить координаты обнаруженных текстовых блоков, а затем точно маскировать.
Используйте случаи и приложения
Юридическое и соответствие
Автоматическое оформление контрактов, HR-файлов и регулируемых документов.
Аудит конфиденциальности
Убедитесь, что PII не вытекает в сканированных архивах, наборных или доказательственных файлах.
Батч DLP (Превенция потери данных)
Прекратите случайное распространение или хранение чувствительной информации в сканированных изображениях.
Общие вызовы и решения
Проблема 1: Найти точные текстовые регионы
Решение: Используйте OCR Text Region Output и Карта для маскирования координатов изображения.
Проблема 2: Фальшивые положительные / отрицательные
Решение: Сделайте списки ключевых слов, валидируйте редактированные изображения и выполняйте аудиты.
Проблема 3: Размер рабочего места
Решение: Параллелизовать и автоматизировать обработку ошибок по шкале.
Рассмотрим производительность
- Региональное расчетное и изобразительное письмо может быть медленным для больших комплектов — при необходимости используйте асинк.
- Зарегистрируйте все редакции для проверки соответствия
Лучшие практики
- Тестирование регионов с точностью с разнообразными изображениями
- Регулярно обновляют списки ключевых слов для новых моделей PII
- Защитите как оригинальные, так и редактированные файлы
- Проверка с помощью ручного спот-чека
Развитые сценарии
Сценарий 1: Блур вместо Блэкаута
Используйте фильтры изображения для промывания обнаруженных областей для более тонкого маскирования.
Сценарий 2: Настройка / Замена текста
Заполните специальную этикетку (например, «REDACTED») вместо черного ящика.
Заключение
Aspose.OCR Image Text Finder для .NET позволяет автоматизировать редактирование PII / ключевых слов по масштабу, снижая правовые риски и обеспечивая конфиденциальность в архивах изображений.
Для точных региональных АПИ и редакционной интеграции, см. ASPOSE.OCR для .NET API .