Jak zbudować automatyczną PII lub przewod redakcji słów kluczowych za pomocą .NET
Redakcja osobistych informacji identyfikacyjnych (PII) i wrażliwych słów kluczowych w skanowanych obrazach jest niezbędna dla prywatności, prawnych i operacji zgodności. Aspose.OCR Image Text Finder dla .NET umożliwia automatyczne wykrywanie i edycję w przesyłkach roboczych.
Problem świata rzeczywistego
Ręczne pisanie poufnych danych w skanowanych archiwach jest powolne, prócz błędów i kosztowne. automatyzacja jest potrzebna, aby zapewnić niezawodne i konsekwentne ukrywanie dla audytów zgodności i prywatności.
Przegląd rozwiązania
Automatycznie wykrywa PII lub słowa kluczowe za pomocą OCR, a następnie maskuje, blur lub zastępuje je w obrazie i przechowuje zarejestrowane wyniki – zapewnia prywatność i bezpieczeństwo.
Warunki
- Visual Studio 2019 lub później
- .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
- Aspose.OCR dla .NET od NuGet
- PII lub lista słów kluczowych w pliku tekstowym
PM> Install-Package Aspose.OCR
Wdrażanie krok po kroku
Krok 1: Przygotuj PII / listę słów kluczowych i wstępne obrazy
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
Krok 2: Wyszukiwanie PII / Słowa kluczowe
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Proceed to redact in Step 3
}
}
}
Krok 3: Napisz lub maskuj wykryte warunki
- Podczas gdy Aspose.OCR wykrywa terminy, redakcja musi być stosowana z bibliotekami obrazów (np. System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
using (var g = Graphics.FromImage(image))
{
// Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
// g.FillRectangle(Brushes.Black, x, y, width, height);
}
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
Krok 4: Zapisz zarejestrowane pliki
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
Krok 5: Pełny przykład przepływu roboczego batch
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;
class Program
{
static void Main(string[] args)
{
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Redact by overlay (simplified; see docs for bounding box)
using (var image = new Bitmap(file))
using (var g = Graphics.FromImage(image))
{
// Example: Draw rectangle where text is found (requires OCR region info)
// g.FillRectangle(Brushes.Black, x, y, width, height);
// Save redacted copy
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
}
}
}
}
}
Uwaga: W celu dokładnego mapowania regionu, użyj APIs rozpoznawczych regionów Aspose.OCR, aby uzyskać współrzędne wykryte bloki tekstowe, a następnie dokładnie maskować.
Korzystanie z przypadków i aplikacji
Prawo i zgodność
Automatyczna edycja umów, plików HR i dokumentów regulowanych.
Audyty prywatności
Upewnij się, że PII nie ucieka w skanowanych archiwach, na pokładzie lub plikach dowodowych.
BATCH DLP (Prevention of Data Loss) – zapobieganie utracie danych
Zatrzymaj przypadkowe udostępnianie lub przechowywanie wrażliwych informacji w skanowanych obrazach.
Wspólne wyzwania i rozwiązania
Wyzwanie 1: Znajomość dokładnych obszarów tekstowych
Rozwiązanie: Użyj wyjścia regionu tekstowego OCR i mapy do współrzędnych obrazu do maski.
Wyzwanie 2: fałszywe pozytywne / negatywne
Rozwiązanie: Wypełnij listy słów kluczowych, weryfikuj zarejestrowane obrazy i przeprowadź audyty.
Wyzwanie 3: Wielkość pracy batch
Rozwiązanie: Paralelizować i automatycznie naprawiać błędy na skalę.
uwzględnienie wydajności
- Obliczanie regionu i pisanie obrazu może być powolne dla dużych partii – użyj async, jeśli to konieczne
- Zarejestruj wszystkie redakcje do przeglądu zgodności
Najlepsze praktyki
- Test regionu mapowania dokładności z różnorodnymi obrazami
- Regularnie aktualizuje listy słów kluczowych dla nowych wzorów PII
- Zabezpieczenie zarówno oryginalnych, jak i sporządzonych plików
- Potwierdzenie za pomocą manualnych spot-chek
Zaawansowane scenariusze
Scenariusz 1: Blur zamiast Blackout
Użyj filtrów obrazu, aby blurować zidentyfikowane obszary dla bardziej subtelnej maski.
Scenariusz 2: Dostosowany tekst edycji / zastąpienia
Wymieszaj etykietę (np. „REDACTED”) zamiast czarnej skrzynki.
konkluzja
Aspose.OCR Image Text Finder dla .NET umożliwia automatyzację pisania PII / słów kluczowych na skalę – zmniejszając ryzyko prawne i gwarantując prywatność w archiwum obrazów.
Aby uzyskać dokładne regionalne API i integrację redakcyjną, zobacz Aspose.OCR dla .NET API Referencje .