Cara membuat PII otomatis atau pipa redaksi kata kunci dengan .NET
Mengedit informasi yang dapat diidentifikasi secara pribadi (PII) dan kata kunci sensitif dalam gambar yang dipindai sangat penting untuk operasi privasi, hukum, dan pematuhan. Aspose.OCR Image Text Finder untuk .NET memungkinkan untuk mengautomatikkan deteksi dan pengeditan dalam aliran kerja batch.
Masalah dunia nyata
Redaksi manual data rahasia dalam arkib yang dipindai adalah lambat, kelalaian, dan mahal.Automasi diperlukan untuk memastikan penyimpanan yang dapat diandalkan dan konsisten untuk pemeriksaan pematuhan dan privasi.
Penyelesaian Overview
Secara otomatis mendeteksi PII atau kata kunci menggunakan OCR, kemudian masker, blur, atau menggantikannya dalam gambar dan menyimpan hasil yang diedit – menjamin privasi dan keamanan.
Persyaratan
- Visual Studio 2019 atau lebih baru
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET dari NuGet
- PII atau daftar kata kunci dalam file teks
PM> Install-Package Aspose.OCR
Implementasi langkah demi langkah
Langkah 1: Siapkan PII/Keyword List dan Input Images
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
Langkah 2: Cari PII / Kata Kunci
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Proceed to redact in Step 3
}
}
}
Langkah 3: Mengedit atau Masker Terma Terdeteksi
- Sementara Aspose.OCR mengidentifikasi istilah, redaksi harus diterapkan dengan perpustakaan gambar (misalnya, System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
using (var g = Graphics.FromImage(image))
{
// Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
// g.FillRectangle(Brushes.Black, x, y, width, height);
}
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
Langkah 4: Mendaftarkan file yang diedit
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
Langkah 5: Menyelesaikan Batch Workflow Contoh
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;
class Program
{
static void Main(string[] args)
{
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Redact by overlay (simplified; see docs for bounding box)
using (var image = new Bitmap(file))
using (var g = Graphics.FromImage(image))
{
// Example: Draw rectangle where text is found (requires OCR region info)
// g.FillRectangle(Brushes.Black, x, y, width, height);
// Save redacted copy
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
}
}
}
}
}
Catatan: Untuk pemetaan wilayah yang tepat, gunakan API daerah pengenalan Aspose.OCR untuk mendapatkan koordinat blok teks yang ditemukan, kemudian masker dengan tepat.
Menggunakan kasus dan aplikasi
Hukum dan pematuhan
Automatik penulisan kontrak, file HR, dan dokumen teratur.
Audit Privasi
Pastikan tidak ada kebocoran PII dalam arkib yang dipindai, pada papan, atau file bukti.
Batch DLP (Pencegahan Kehilangan Data)
Hentikan berbagi atau penyimpanan informasi sensitif secara tidak sengaja dalam gambar yang dipindai.
Tantangan dan Solusi Umum
Tantangan 1: Menemukan wilayah teks yang tepat
** Solusi:** Gunakan output wilayah teks OCR dan peta untuk koordinat gambar untuk menyembunyikan.
Tantangan 2: Positif dan Negatif
** Solusi:** Buat daftar kata kunci, validasi gambar yang diedit, dan lakukan audit.
Tantangan 3: Ukuran pekerjaan batch
** Solusi:** Parallelize dan otomatis menangani kesalahan untuk skala.
Pertimbangan kinerja
- Perhitungan wilayah dan penulisan gambar mungkin lambat untuk batch besar—menggunakan async jika perlu
- Daftar semua edisi untuk pemeriksaan pematuhan
Praktik Terbaik
- Pemeriksaan wilayah memetakan ketepatan dengan gambar yang bervariasi
- Meningkatkan daftar kata kunci secara teratur untuk pola PII baru
- Mengamankan kedua file asli dan teredit
- Memeriksa dengan manual spot-checks
Skenario Lanjutan
Skenario 1: Blur bukannya Blackout
Gunakan filter gambar untuk menggosok daerah yang dideteksi untuk masker yang lebih halus.
Skenario 2: Kustom Redaksi/Teks Penggantian
Overlay label tersuai (misalnya, “REDACTED”) bukannya kotak hitam.
Kesimpulan
Aspose.OCR Image Text Finder untuk .NET memungkinkan Anda untuk mengautomatikkan penulisan PII / kata kunci pada skala – mengurangi risiko hukum dan menjamin privasi di seluruh arkib gambar.
Untuk API regional yang akurat dan integrasi redaksi, lihat Aspose.OCR untuk .NET API Referensi .