Comment créer un PII automatisé ou un pipeline de rédaction de mots clés avec .NET

Comment créer un PII automatisé ou un pipeline de rédaction de mots clés avec .NET

L’édition d’informations personnellement identifiables (PII) et de mots-clés sensibles dans les images scanées est cruciale pour la vie privée, la légalité et les opérations de conformité. Aspose.OCR Image Text Finder pour .NET permet de automatiser la détection et la rédaction dans des flux de travail de groupe.

Problème du monde réel

La rédaction manuelle des données confidentielles dans les archives scannées est lente, sans erreur et coûteuse. l’automatisation est nécessaire pour assurer une masque fiable et consistante pour les audits de conformité et de vie privée.

Vue de la solution

Détecter automatiquement PII ou mots-clés en utilisant OCR, puis masquer, blurer ou les remplacer dans l’image et sauver les résultats rédigés – assurant la vie privée et la sécurité.

Principaux

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • PII ou liste de mots clés dans un fichier texte
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1: Préparer PII/Liste de mots-clés et Images d’entrée

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Étape 2 : Rechercher PII / mots-clés

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Étape 3 : Rédiger ou masquer les termes détectés

  • Alors que Aspose.OCR détecte les termes, la rédaction doit être appliquée avec les bibliothèques d’image (par exemple, System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Étape 4 : Enregistrez les fichiers rédigés

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Étape 5 : Complète l’exemple du flux de travail Batch

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Remarque : Pour la cartographie de la région précise, utilisez les API de région de reconnaissance d’Aspose.OCR pour obtenir des coordonnées de blocs de texte détectés, puis masquer exactement.

Utiliser les cas et les applications

Droit et conformité

Rédaction automatique des contrats, des fichiers HR et des documents réglementés.

Audits de confidentialité

Assurez-vous qu’il n’y a pas de fuites PII dans les archives scannées, les fichiers de navigation ou les éléments de preuve.

Batch DLP (Prevention de la perte de données)

Arrêtez le partage accidentel ou le stockage d’informations sensibles dans les images scannées.

Défis communs et solutions

Défi 1 : Localiser des régions de texte précises

Solution: Utilisez la sortie de la région de texte OCR et la carte pour les coordonnées d’image pour masquer.

Défi 2 : Faux positifs / négatifs

Solution: Faites des listes de mots-clés, validez les images rédigées et effectuez des audits.

Défi 3 : la taille du travail de batch

Solution: Parallèlement et gestion automatique des erreurs pour l’échelle.

Considérations de performance

  • Le calcul de la région et l’écriture d’image peuvent être lents pour les gros lots — utilisez async si nécessaire
  • Inscrivez-vous à toutes les rédactions pour l’examen de la conformité

Migliori pratiche

  • Test de la région en cartographiant l’exactitude avec des images variées
  • Mise à jour régulière des listes de mots-clés pour de nouveaux modèles PII
  • Sécuriser les fichiers originaux et rédigés
  • Valider avec des contrôles de spot manuels

Scénarios avancés

Scénario 1 : Blur au lieu de Blackout

Utilisez des filtres d’image pour blasser les régions détectées pour un masque plus subtil.

Scénario 2 : Rédaction personnalisée/Texte de remplacement

Étiquette personnalisée (par exemple, “REDACTED”) au lieu de boîte noire.

Conclusion

Aspose.OCR Image Text Finder pour .NET vous permet d’automatiser la rédaction de mots clés à l’échelle – en réduisant le risque juridique et en garantissant la confidentialité dans les archives image.

Pour les APIs régionales précises et l’intégration de la rédaction, voir Aspose.OCR pour la référence API .NET .

 Français