Jak vytvořit automatickou PII nebo Keyword Redaction Pipeline s .NET

Jak vytvořit automatickou PII nebo Keyword Redaction Pipeline s .NET

Redakce osobně identifikovatelných informací (PII) a citlivých klíčových slov v skenovaných snímcích je nezbytná pro soukromí, právní a dodržovací operace. Aspose.OCR Image Text Finder pro .NET umožňuje automatizovat detekci a redakci v souboru pracovních toků.

Reálný světový problém

Manuální úprava důvěrných údajů v skenovaných archivech je pomalá, bezchybná a nákladná. automatizace je nezbytná k zajištění spolehlivého a konzistentního maskování pro audity souladu a soukromí.

Řešení přehled

Automaticky detekuje PII nebo klíčová slova pomocí OCR, pak maskuje, blur, nebo je nahrazuje ve snímku a ukládá vyhotovené výsledky – zajišťuje soukromí a bezpečnost.

Předpoklady

  • Visual Studio 2019 nebo novější
  • .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
  • Aspose.OCR pro .NET z NuGet
  • PII nebo seznam klíčových slov v textovém souboru
PM> Install-Package Aspose.OCR

krok za krokem implementace

Krok 1: Připravte PII / seznam klíčových slov a vstupní obrázky

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Krok 2: Vyhledávání PII / klíčových slov

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Krok 3: Redukce nebo maska zjištěných podmínek

  • Zatímco Aspose.OCR detekuje termíny, redakce musí být aplikována s obrázkovými knihovnami (např. System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Krok 4: Přihlaste se k editovaným souborům

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Krok 5: Kompletní příklad pracovního toku batch

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Poznámka: Pro přesné mapování regionu použijte rozpoznávací region APIs společnosti Aspose.OCR, abyste získali koordináty zjištěných textových bloků, pak přesně maskujte.

Použití případů a aplikací

Právní a dodržování

Automatická úprava smluv, souborů HR a regulovaných dokumentů.

Audity soukromí

Ujistěte se, že PII neunikne do skenovaných archivů, souborů na palubě nebo dokladů.

Batch DLP (prevence ztráty údajů)

Přestaňte náhodně sdílet nebo ukládat citlivé informace v skenovaných snímcích.

Společné výzvy a řešení

Výzva 1: Najít přesné textové oblasti

Rozhodnutí: Použijte OCR textový region výstup a mapu pro obrazové koordináty pro maskování.

Výzva 2: Falešné pozitivy / Negativy

Rozhodnutí: Vytvořte seznamy klíčových slov, validujte upravené obrázky a provádějte audity.

Výzva 3: Rozměr práce batch

Rozhodnutí: Paralelizaci a automatizace zpracování chyb pro měřítko.

Úvahy o výkonu

  • Výpočet regionu a psaní obrazu může být pomalý pro velké balíčky – použijte async v případě potřeby
  • Přihlaste se ke všem redakcím za účelem přezkumu shody

Nejlepší postupy

  • Test regionu mapování přesnosti s různými obrázky
  • Pravidelně aktualizovat seznamy klíčových slov pro nové PII vzory
  • Zabezpečte originální i upravené soubory
  • ověření pomocí manuálních spot-checků

Pokročilé scénáře

Scénář 1: Blur místo Blackout

Použijte obrázkové filtry k mletí zjištěných oblastí pro jemnější maskování.

Scénář 2: Přizpůsobená úprava / nahrazení textu

Přesměrování přizpůsobené štítky (např. „REDACTED“) namísto černé krabičky.

závěr

Aspose.OCR Image Text Finder pro .NET vám umožňuje automatizovat PII/keyword editaci na stupnici – snižuje právní riziko a zajišťuje soukromí v archivech snímků.

Pro přesné regionální API a integraci redakce, viz Aspose.OCR pro .NET API Reference .

 Čeština