Як створити автоматизовану PII або ключову лінію редагування з .NET

Як створити автоматизовану PII або ключову лінію редагування з .NET

Редагування особисто ідентифікованої інформації (PII) та чутливих ключових слів у сканованих зображеннях є вирішальним для конфіденційності, правової та дотримання операцій. Aspose.OCR Image Text Finder для .NET дозволяє автоматизувати виявлення та редагувати в робочих потоках.

Реальні проблеми світу

Ручне редагування конфіденційних даних в сканованих архівах є повільним, недобросовісним і дорогоцінним.Автоматизація необхідна для забезпечення надійного і постійного малювання для аудитів дотримання та приватності.

Огляд рішення

Автоматично виявляють PII або ключові слова за допомогою OCR, потім маскують, м’ясують або замінюють їх на зображенні і зберігають редагувані результати - забезпечують конфіденційність і безпеку.

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • PII або список ключових слів у текстовому файлі
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Підготуйте PII / список ключових слів та введення зображень

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Крок 2: Пошук PII / Ключові слова

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Крок 3: Редагувати або маскувати виявлені терміни

  • У той час як Aspose.OCR виявляє терміни, редагування повинно застосовуватися з бібліотеками зображень (наприклад, System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Крок 4: Редагувати файли

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Крок 5: Повний приклад робочого потоку батареї

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Примітка: Для точного малювання регіонів використовуйте АПІ регіону визнання Aspose.OCR, щоб отримати координати виявлених текстових блоків, а потім точно маскувати.

Використання випадків та додатків

Закон і дотримання

Автоматична редакція контрактів, HR-файлів та регульованих документів.

Контроль конфіденційності

Переконайтеся, що PII не витікає в сканованих архівах, на борту або файлах доказів.

Батч DLP (Профілактика втрати даних)

Перестаньте випадково ділитися або зберігати чутливу інформацію в сканованих зображеннях.

Спільні виклики та рішення

Проблема 1: Визначення точних текстових регіонів

Рішення: Використовуйте OCR текстовий регіон вихід і карту для координатів зображення для маски.

Виклик 2: Фальшиві позитивні / негативні

Рішення: Використовуйте списки ключових слів, підтверджуйте редагувані зображення та виконуйте аудити.

Виклик 3: Розмір робочого місця

Рішення: Паралелізуйте і автоматично обробляйте помилки для масштабу.

Виконання розглядів

  • Розрахунок регіону та зображення написання можуть бути повільними для великих штук — використовуйте асинк, якщо це необхідно
  • Зареєструйте всі редакції для перевірки відповідності

Найкращі практики

  • Тест регіону з точністю з різноманітними зображеннями
  • Регулярні оновлення списків ключових слів для нових моделей PII
  • Забезпечити як оригінальні, так і редагувані файли
  • Використання ручних спот-чеків

Розширені сценарії

Сценарій 1: Блюр замість блакату

Використовуйте фільтри зображення, щоб знешкодити виявлені райони для більш тонкого маскавання.

Сценарій 2: Налаштування редагування/заміна тексту

Перекладіть пристосовану етикетку (наприклад, «REDACTED») замість чорного ящика.

Заключення

ASPOSE.OCR Image Text Finder для .NET дозволяє автоматизувати редагування PII / ключових слів на масштабі - зменшуючи правовий ризик і забезпечуючи конфіденційність в архівах зображень.

Для точних регіональних АПІ та редакційної інтеграції, перегляньте Aspose.OCR для .NET API Референт .

 Українська