Comment extraire des données personnelles ou sensibles des images avec Aspose.OCR

Comment extraire des données personnelles ou sensibles des images avec Aspose.OCR

L’extraction de données personnelles ou sensibles à partir d’images est cruciale pour la conformité, les audits de confidentialité et la prévention automatisée de la perte des données. Aspose.OCR pour .NET vous permet de rechercher, extraire et réviser le contenu confident dans les images numériques et les documents scannés.

Problème du monde réel

Les organisations doivent trouver et rédiger des informations personnellement identifiables (PII) ou des données confidentielles cachées dans les contrats scanés, les formulaires ou les photos numériques.

Vue de la solution

Aspose.OCR pour .NET peut rechercher des modèles de texte spécifiques (noms, adresses, identifiants, numéros de compte, etc.), même en utilisant des expressions régulières, et extraire ou rapport sur les données sensibles.

Principaux

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • L’expérience C#
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1 : Installer et configurer Aspose.OCR

using Aspose.OCR;

Étape 2 : Préparez vos fichiers d’image

string img1 = "id_card.png";
string img2 = "contract_scan.jpg";

Étape 3 : Configurer la reconnaissance PII/Sensitive Pattern

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Étape 4: Recherche de données PII ou confidentielles dans les images

  • Utilisez des modèles string/regex pour correspondre à PII (tels que les noms, SSN, numéros de compte, courriels):
AsposeOcr ocr = new AsposeOcr();
bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // US SSN pattern
bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

Étape 5: Extrait et rapport de contenu sensible

  • Extrait de tout texte reconnu pour un traitement ultérieur :
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add(img1);
input.Add(img2);
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // For human review
    result.Save("extracted_data.txt", SaveFormat.Text); // Save for audit/compliance
}

Étape 6 : Ajoutez le traitement des erreurs

try
{
    bool found = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Étape 7 : Optimiser les audits en masse ou automatisés

  • Processe des dossiers de fichiers pour les audits organisatifs
  • Enregistrez les résultats dans une base de données centrale ou un fichier pour l’examen de la conformité
foreach (string file in Directory.GetFiles("./images", "*.png"))
{
    bool found = ocr.ImageHasText(file, @"[A-Z]{2}[0-9]{6}", settings); // Example: passport pattern
    if (found) { Console.WriteLine($"PII found in: {file}"); }
}

Étape 8 : Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();

            string img1 = "id_card.png";
            string img2 = "contract_scan.jpg";

            bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
            bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add(img1);
            input.Add(img2);
            List<RecognitionResult> results = ocr.Recognize(input, settings);
            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("extracted_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utiliser les cas et les applications

Audits de confidentialité et de conformité

Recherchez des images pour PII (noms, SSN, adresses) pour respecter le RGPD, le CCPA et les obligations de confidentialité internes.

Rédaction automatique

Flag ou rédaction automatique de contenu confidentiel dans les documents juridiques et commerciaux.

Forensicité numérique et révision

Accélérer la révision manuelle en soulignant le contenu sensible sur de grands ensembles de données.

Défis communs et solutions

Défi 1 : Complex ou manuscrit PII

Solution: Utilisez des scans de haute qualité, vérifiez les expressions régulières et complétez-les avec une révision manuelle.

Défi 2 : Images de volume élevé

Résolution: Le processus de raccordement dans les dossiers et les résultats d’exportation pour les rapports.

Défi 3 : Modèles PII personnalisés

Résolution: Utilisez le regex personnalisé pour les types de données uniques de votre organisation.

Considérations de performance

  • Le processus Batch pour la vitesse
  • Fine-tune regex pour vos types PII
  • Disponibilité d’objets OCR après les courses

Migliori pratiche

  • Test PII recherche sur un échantillon d’images divers
  • Mise à jour régulière des régimes de régime et de conformité
  • Sécuriser tous les résultats et les données extraites
  • Backup des fichiers originaux et traités

Scénarios avancés

Scénario 1 : PII multilingue ou international

settings.Language = Language.French;

Scénario 2: Exportation à JSON pour le rapport de conformité

foreach (RecognitionResult result in results)
{
    result.Save("extracted_data.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR pour .NET vous donne le pouvoir de détecter et d’extraire des informations sensibles des images et des scans, automatisant les flux de travail de conformité et de confidentialité à l’échelle.

Voir plus d’échantillons de code avancés dans le Aspose.OCR pour la référence API .NET .

 Français