Hvordan man opretter en automatisk PII eller Keyword Redaction Pipeline med .NET

Hvordan man opretter en automatisk PII eller Keyword Redaction Pipeline med .NET

Redigering af personligt identificerbare oplysninger (PII) og følsomme nøgleord i scannede billeder er afgørende for privatlivs-, juridiske og overensstemmelsesoperationer. Aspose.OCR Image Text Finder for .NET gør det muligt at automatisere opdagelse og redigering i pakkearbejdstrømme.

Det virkelige problem

Manuel redigering af fortrolige data i scannede arkiver er langsom, fejlfrit og dyrt. Automation er nødvendig for at sikre pålidelig og konsekvent masking for overholdelse og privatlivsrevisioner.

Oversigt over løsning

Automatisk opdage PII eller nøgleord ved hjælp af OCR, derefter maske, blur eller erstatte dem i billedet og gemme de redigerede resultater – sikring af privatliv og sikkerhed.

Forudsætninger

  • Visual Studio 2019 eller senere
  • .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
  • Aspose.OCR til .NET fra NuGet
  • PII eller keyword liste i en tekstfil
PM> Install-Package Aspose.OCR

Step-by-Step gennemførelse

Trin 1: Forbered PII/Keyword List og Input-billeder

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Trin 2: Søg efter PII/Keywords

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Trin 3: Rediger eller maske opdagede vilkår

  • Mens Aspose.OCR opdager termer, skal redigering anvendes med billedbiblioteker (f.eks. System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Trin 4: Indtast redigerede filer

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Trin 5: Udfyld Batch Workflow Eksempel

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Bemærk: For nøjagtig mapping af regioner, brug Aspose.OCR’s anerkendelsesregion APIs for at få koordinater af detekterede tekstblokke, og mask derefter præcist.

Brug af tilfælde og applikationer

Lovlig og overholdelse

Automatisk redigering af kontrakter, HR-filer og regulerede dokumenter.

Privatlivsrevisioner

Sørg for, at PII ikke løber i scannede arkiver, onboarding eller bevisfiler.

Batch DLP (Data Loss Prevention) – forebyggelse af tab af data

Stop tilfældig deling eller opbevaring af følsomme oplysninger i scannede billeder.

Fælles udfordringer og løsninger

Udfordring 1: At finde nøjagtige tekstområder

Løsning: Brug OCR-tekstregion udgang og kort til billed koordinater til maskering.

Udfordring 2: Falske Positive og Negative

Løsning: Tune nøgleordlister, validere redigerede billeder og udføre revisioner.

Udfordring 3: Batch Job Size

Løsning: Parallelize og automatisk fejlbehandling for skala.

Performance overvejelser

  • Regionsberegning og billedskrivning kan være langsomt for store partier – brug async hvis det er nødvendigt
  • Log alle redaktioner til overensstemmelsesundersøgelse

Bedste praksis

  • Test regioner mapping nøjagtighed med varierede billeder
  • Regelmæssigt opdatering af nøgleordlister for nye PII mønstre
  • Sikre både originale og redigerede filer
  • Validerer med manuelle spot-checks

Avancerede scenarier

Scenario 1: Blur i stedet for Blackout

Brug billedfiltre til at blure de opdagede områder for mere subtile maskering.

Scenariet 2: Tilpasset Redaktion / Replacement Text

Overlay tilpasset mærke (f.eks. “REDACTED”) i stedet for sort boks.

Konklusion

Aspose.OCR Image Text Finder for .NET giver dig mulighed for at automatisere PII/keyword redigering på skala – reducerer den juridiske risiko og sikrer privatlivet i billedarkiverne.

For præcise regionale APIs og redigeringsintegration, se Aspose.OCR til .NET API Reference .

 Dansk