Hogyan készítsünk egy automatizált PII vagy Keyword Redaction Pipeline .NET segítségével

Hogyan készítsünk egy automatizált PII vagy Keyword Redaction Pipeline .NET segítségével

A személyesen azonosítható információk (PII) és érzékeny kulcsszavak szerkesztése a szkennelt képekben elengedhetetlen a magánélet, a jogi és a megfelelőségi műveletek szempontjából.A Aspose.OCR Image Text Finder for .NET lehetővé teszi a tömeges munkafolyamatok automatizálását és felismerését.

Valódi problémák

A titkos adatok kézi szerkesztése a szkennelt archívumokban lassú, hibaellenes és költséges.Az automatizálás szükséges a megbízható és következetes elrejtés biztosításához a megfelelőség és a magánélet ellenőrzése érdekében.

megoldás áttekintése

Automatikusan észleli a PII-t vagy a kulcsszavakat az OCR használatával, majd maszkolja, fújja, vagy helyettesíti őket a képben, és mentse meg a szerkesztett eredményeket – biztosítva a magánéletet és a biztonságot.

előfeltételek

  • Visual Studio 2019 vagy újabb
  • .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET a NuGet-ről
  • PII vagy kulcsszavak listája szöveges fájlban
PM> Install-Package Aspose.OCR

lépésről lépésre megvalósítás

1. lépés: Készítsen PII / kulcsszavak listáját és a beviteli képeket

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

2. lépés: Keresés PII / kulcsszavak

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

3. lépés: Írja le vagy maszkolja a feltárt feltételeket

  • Míg az Aspose.OCR feltárja a kifejezéseket, a szerkesztést képkönyvtárakkal (például System.Drawing, SkiaSharp) kell alkalmazni.
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

4. lépés: Adja meg a szerkesztett fájlokat

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

5. lépés: A teljes munkafolyamat példája

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Megjegyzés: A pontos térképezéshez használja az Aspose.OCR felismerési régió API-kat, hogy azonosított szöveges blokkok koordinátáit kapja, majd pontosan maszkolja.

Esetek és alkalmazások használata

Jogi és megfelelőségi

Szerződések, HR fájlok és szabályozott dokumentumok automatikus szerkesztése.

Adatvédelmi ellenőrzések

Győződjön meg arról, hogy a PII nem bocsát ki szkennelt archívumokban, fedélzetén vagy bizonyítékfájlokban.

Batch DLP (adatvesztés megelőzése)

Hagyja abba az érzékeny információk véletlenszerű megosztását vagy tárolását a szkennelt képekben.

Közös kihívások és megoldások

1. kihívás: pontos szövegterületek megtalálása

** Megoldás:** Használja az OCR szöveges régió kimenetelét és térképét a kép koordinátáira a maszkoláshoz.

2. kihívás: hamis pozitív / negatív

** Megoldás:** A kulcsszavak listáit, a szerkesztett képek érvényesítését és a könyvvizsgálat elvégzését.

3. kihívás: Batch Job Size

** Megoldás:** Parallelize és automatizálja a hiba kezelést a skálán.

A teljesítmény megfontolása

  • A régió kiszámítása és a képírás lassú lehet a nagy töredékek esetében – szükség esetén az async használata
  • Jelentkezzen be az összes szerkesztőséghez a megfelelőség felülvizsgálatához

Legjobb gyakorlatok

  • A térség pontosságát különböző képekkel teszteli
  • Rendszeresen frissíti a kulcsszavak listáit az új PII mintákhoz
  • Az eredeti és a szerkesztett fájlok védelme
  • Manuális spot-checks használatával

fejlett forgatókönyvek

1. forgatókönyv: Blur helyett Blackout

Használja a képszűrőket, hogy a felfedezett területeket finomabb maszkra öblítse.

2. forgatókönyv: Személyre szabott szerkesztés / helyettesítő szöveg

Öblítse a beállított címkét (például „REDACTED”) a fekete doboz helyett.

következtetések

Az ASPOSE.OCR Image Text Finder for .NET lehetővé teszi, hogy automatizálja a PII / kulcsszó szerkesztését a skálán – csökkenti a jogi kockázatot és biztosítja a magánéletet a kép archívumokban.

Pontos regionális APIs és szerkesztői integráció, lásd: Az ASPOSE.OCR a .NET API referenciájához .

 Magyar