Як створити автоматизовану PII або ключову лінію редагування з .NET
Редагування особисто ідентифікованої інформації (PII) та чутливих ключових слів у сканованих зображеннях є вирішальним для конфіденційності, правової та дотримання операцій. Aspose.OCR Image Text Finder для .NET дозволяє автоматизувати виявлення та редагувати в робочих потоках.
Реальні проблеми світу
Ручне редагування конфіденційних даних в сканованих архівах є повільним, недобросовісним і дорогоцінним.Автоматизація необхідна для забезпечення надійного і постійного малювання для аудитів дотримання та приватності.
Огляд рішення
Автоматично виявляють PII або ключові слова за допомогою OCR, потім маскують, м’ясують або замінюють їх на зображенні і зберігають редагувані результати - забезпечують конфіденційність і безпеку.
Передумови
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET від NuGet
- PII або список ключових слів у текстовому файлі
PM> Install-Package Aspose.OCR
Крок за кроком реалізація
Крок 1: Підготуйте PII / список ключових слів та введення зображень
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
Крок 2: Пошук PII / Ключові слова
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Proceed to redact in Step 3
}
}
}
Крок 3: Редагувати або маскувати виявлені терміни
- У той час як Aspose.OCR виявляє терміни, редагування повинно застосовуватися з бібліотеками зображень (наприклад, System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
using (var g = Graphics.FromImage(image))
{
// Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
// g.FillRectangle(Brushes.Black, x, y, width, height);
}
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
Крок 4: Редагувати файли
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
Крок 5: Повний приклад робочого потоку батареї
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;
class Program
{
static void Main(string[] args)
{
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Redact by overlay (simplified; see docs for bounding box)
using (var image = new Bitmap(file))
using (var g = Graphics.FromImage(image))
{
// Example: Draw rectangle where text is found (requires OCR region info)
// g.FillRectangle(Brushes.Black, x, y, width, height);
// Save redacted copy
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
}
}
}
}
}
Примітка: Для точного малювання регіонів використовуйте АПІ регіону визнання Aspose.OCR, щоб отримати координати виявлених текстових блоків, а потім точно маскувати.
Використання випадків та додатків
Закон і дотримання
Автоматична редакція контрактів, HR-файлів та регульованих документів.
Контроль конфіденційності
Переконайтеся, що PII не витікає в сканованих архівах, на борту або файлах доказів.
Батч DLP (Профілактика втрати даних)
Перестаньте випадково ділитися або зберігати чутливу інформацію в сканованих зображеннях.
Спільні виклики та рішення
Проблема 1: Визначення точних текстових регіонів
Рішення: Використовуйте OCR текстовий регіон вихід і карту для координатів зображення для маски.
Виклик 2: Фальшиві позитивні / негативні
Рішення: Використовуйте списки ключових слів, підтверджуйте редагувані зображення та виконуйте аудити.
Виклик 3: Розмір робочого місця
Рішення: Паралелізуйте і автоматично обробляйте помилки для масштабу.
Виконання розглядів
- Розрахунок регіону та зображення написання можуть бути повільними для великих штук — використовуйте асинк, якщо це необхідно
- Зареєструйте всі редакції для перевірки відповідності
Найкращі практики
- Тест регіону з точністю з різноманітними зображеннями
- Регулярні оновлення списків ключових слів для нових моделей PII
- Забезпечити як оригінальні, так і редагувані файли
- Використання ручних спот-чеків
Розширені сценарії
Сценарій 1: Блюр замість блакату
Використовуйте фільтри зображення, щоб знешкодити виявлені райони для більш тонкого маскавання.
Сценарій 2: Налаштування редагування/заміна тексту
Перекладіть пристосовану етикетку (наприклад, «REDACTED») замість чорного ящика.
Заключення
ASPOSE.OCR Image Text Finder для .NET дозволяє автоматизувати редагування PII / ключових слів на масштабі - зменшуючи правовий ризик і забезпечуючи конфіденційність в архівах зображень.
Для точних регіональних АПІ та редакційної інтеграції, перегляньте Aspose.OCR для .NET API Референт .