Kako izgraditi automatski PII ili Keyword Redaction Pipeline s .NET-om

Kako izgraditi automatski PII ili Keyword Redaction Pipeline s .NET-om

Redaktiranje osobno identifikacijskih informacija (PII) i osjetljivih ključnih riječi u skeniranim slikama ključno je za privatnost, pravne i usklađenosti.Aspose.OCR Image Text Finder za .NET omogućuje automatizaciju otkrivanja i pisanja u radnim tokovima.

Real-svjetski problem

Ručni redigiranje povjerljivih podataka u skeniranim arhivima je usporeno, bez pogrešaka i skupo.Automatija je potrebna kako bi se osiguralo pouzdan i dosljedan prikrivanje za revizije usklađenosti i privatnosti.

Pregled rješenja

Automatski otkriti PII ili ključne riječi pomoću OCR-a, zatim maskirati, bluriti ili zamijeniti ih u slici i sačuvati redigirane rezultate – osiguravajući privatnost i sigurnost.

Preduzeća

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
  • PII ili popis ključnih riječi u tekstovnom datoteku
PM> Install-Package Aspose.OCR

Korak po korak provedba

Korak 1: Pripremite PII/Keyword List i Uvodne slike

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Korak 2: Pronađite PII / Ključne riječi

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Korak 3: Redaktirajte ili maskirajte otkrivene uvjete

  • Dok Aspose.OCR otkriva izraze, redaktiranje se mora primjenjivati s slikovnim knjižnicama (npr. System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Korak 4: Prijavite redigirane datoteke

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Korak 5: Popunite primjer radnog toka

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Napomena: Za točno mapiranje regije, koristite ASPOSE.OCR priznavanje regija APIs da biste dobili koordinate otkrivenih tekstnih blokova, a zatim maskirati točnije.

Korištenje slučajeva i aplikacija

Zakon i usklađenost

Automatsko pisanje ugovora, HR datoteka i reguliranih dokumenata.

Revizija privatnosti

Osigurajte da se PII ne ispušta u skeniranim arhivima, na brodu ili dokaznim datotekama.

Batch DLP (prevencija gubitka podataka)

Prestanite slučajno dijeliti ili pohranjivati osjetljive informacije u skeniranim slikama.

Zajednički izazovi i rješenja

Izazov 1: Pronađivanje točnih tekstnih područja

Rješenje: Koristite OCR izlazak tekst regije i mapu za koordinate slike za maskiranje.

Izazov 2: lažna pozitivnost i negativnost

Rješenje: Napravite popise ključnih riječi, potvrdite redigirane slike i provodite revizije.

Sljedeći Članak Izazov 3: Batch Job Size

Rješenje: Paralelizacija i automatiziranje rješavanja pogrešaka za skalu.

Razmatranje učinkovitosti

  • Izračun regije i pisanje slike može biti usporeno za velike partije – koristite async ako je potrebno
  • Prijavite se za sve uredbe za pregled usklađenosti

Najbolje prakse

  • Test regije mapiranje točnosti s raznovrsnim slikama
  • Redovito ažurirati popise ključnih riječi za nove PII uzorke
  • Osigurajte originalne i redigirane datoteke
  • Validacija s ručnim spot-chekovima

Napredni scenariji

Scenarij 1: Blur umjesto Blackout

Koristite slikovne filtre za mlijeko otkrivene regije za nježnije maskiranje.

Scenarij 2: Korišteno redaktiranje / zamjena teksta

Preklapanje prilagođene oznake (na primjer, “REDACTED”) umjesto crne kutije.

zaključak

Aspose.OCR Image Text Finder za .NET omogućuje vam da automatizirate PII/keyword redigiranje na skali – smanjujući pravne rizike i osiguravajući privatnost u arhivima slike.

Za točne regionalne API i integraciju uredništva, pogledajte Aspose.OCR za .NET API reference .

 Hrvatski