Jak zbudować automatyczną PII lub przewod redakcji słów kluczowych za pomocą .NET

Jak zbudować automatyczną PII lub przewod redakcji słów kluczowych za pomocą .NET

Redakcja osobistych informacji identyfikacyjnych (PII) i wrażliwych słów kluczowych w skanowanych obrazach jest niezbędna dla prywatności, prawnych i operacji zgodności. Aspose.OCR Image Text Finder dla .NET umożliwia automatyczne wykrywanie i edycję w przesyłkach roboczych.

Problem świata rzeczywistego

Ręczne pisanie poufnych danych w skanowanych archiwach jest powolne, prócz błędów i kosztowne. automatyzacja jest potrzebna, aby zapewnić niezawodne i konsekwentne ukrywanie dla audytów zgodności i prywatności.

Przegląd rozwiązania

Automatycznie wykrywa PII lub słowa kluczowe za pomocą OCR, a następnie maskuje, blur lub zastępuje je w obrazie i przechowuje zarejestrowane wyniki – zapewnia prywatność i bezpieczeństwo.

Warunki

  • Visual Studio 2019 lub później
  • .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
  • Aspose.OCR dla .NET od NuGet
  • PII lub lista słów kluczowych w pliku tekstowym
PM> Install-Package Aspose.OCR

Wdrażanie krok po kroku

Krok 1: Przygotuj PII / listę słów kluczowych i wstępne obrazy

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Krok 2: Wyszukiwanie PII / Słowa kluczowe

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Krok 3: Napisz lub maskuj wykryte warunki

  • Podczas gdy Aspose.OCR wykrywa terminy, redakcja musi być stosowana z bibliotekami obrazów (np. System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Krok 4: Zapisz zarejestrowane pliki

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Krok 5: Pełny przykład przepływu roboczego batch

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Uwaga: W celu dokładnego mapowania regionu, użyj APIs rozpoznawczych regionów Aspose.OCR, aby uzyskać współrzędne wykryte bloki tekstowe, a następnie dokładnie maskować.

Korzystanie z przypadków i aplikacji

Prawo i zgodność

Automatyczna edycja umów, plików HR i dokumentów regulowanych.

Audyty prywatności

Upewnij się, że PII nie ucieka w skanowanych archiwach, na pokładzie lub plikach dowodowych.

BATCH DLP (Prevention of Data Loss) – zapobieganie utracie danych

Zatrzymaj przypadkowe udostępnianie lub przechowywanie wrażliwych informacji w skanowanych obrazach.

Wspólne wyzwania i rozwiązania

Wyzwanie 1: Znajomość dokładnych obszarów tekstowych

Rozwiązanie: Użyj wyjścia regionu tekstowego OCR i mapy do współrzędnych obrazu do maski.

Wyzwanie 2: fałszywe pozytywne / negatywne

Rozwiązanie: Wypełnij listy słów kluczowych, weryfikuj zarejestrowane obrazy i przeprowadź audyty.

Wyzwanie 3: Wielkość pracy batch

Rozwiązanie: Paralelizować i automatycznie naprawiać błędy na skalę.

uwzględnienie wydajności

  • Obliczanie regionu i pisanie obrazu może być powolne dla dużych partii – użyj async, jeśli to konieczne
  • Zarejestruj wszystkie redakcje do przeglądu zgodności

Najlepsze praktyki

  • Test regionu mapowania dokładności z różnorodnymi obrazami
  • Regularnie aktualizuje listy słów kluczowych dla nowych wzorów PII
  • Zabezpieczenie zarówno oryginalnych, jak i sporządzonych plików
  • Potwierdzenie za pomocą manualnych spot-chek

Zaawansowane scenariusze

Scenariusz 1: Blur zamiast Blackout

Użyj filtrów obrazu, aby blurować zidentyfikowane obszary dla bardziej subtelnej maski.

Scenariusz 2: Dostosowany tekst edycji / zastąpienia

Wymieszaj etykietę (np. „REDACTED”) zamiast czarnej skrzynki.

konkluzja

Aspose.OCR Image Text Finder dla .NET umożliwia automatyzację pisania PII / słów kluczowych na skalę – zmniejszając ryzyko prawne i gwarantując prywatność w archiwum obrazów.

Aby uzyskać dokładne regionalne API i integrację redakcyjną, zobacz Aspose.OCR dla .NET API Referencje .

 Polski