Cara membuat PII otomatis atau pipa redaksi kata kunci dengan .NET

Cara membuat PII otomatis atau pipa redaksi kata kunci dengan .NET

Mengedit informasi yang dapat diidentifikasi secara pribadi (PII) dan kata kunci sensitif dalam gambar yang dipindai sangat penting untuk operasi privasi, hukum, dan pematuhan. Aspose.OCR Image Text Finder untuk .NET memungkinkan untuk mengautomatikkan deteksi dan pengeditan dalam aliran kerja batch.

Masalah dunia nyata

Redaksi manual data rahasia dalam arkib yang dipindai adalah lambat, kelalaian, dan mahal.Automasi diperlukan untuk memastikan penyimpanan yang dapat diandalkan dan konsisten untuk pemeriksaan pematuhan dan privasi.

Penyelesaian Overview

Secara otomatis mendeteksi PII atau kata kunci menggunakan OCR, kemudian masker, blur, atau menggantikannya dalam gambar dan menyimpan hasil yang diedit – menjamin privasi dan keamanan.

Persyaratan

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
  • PII atau daftar kata kunci dalam file teks
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Siapkan PII/Keyword List dan Input Images

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

Langkah 2: Cari PII / Kata Kunci

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

Langkah 3: Mengedit atau Masker Terma Terdeteksi

  • Sementara Aspose.OCR mengidentifikasi istilah, redaksi harus diterapkan dengan perpustakaan gambar (misalnya, System.Drawing, SkiaSharp).
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

Langkah 4: Mendaftarkan file yang diedit

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

Langkah 5: Menyelesaikan Batch Workflow Contoh

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

Catatan: Untuk pemetaan wilayah yang tepat, gunakan API daerah pengenalan Aspose.OCR untuk mendapatkan koordinat blok teks yang ditemukan, kemudian masker dengan tepat.

Menggunakan kasus dan aplikasi

Hukum dan pematuhan

Automatik penulisan kontrak, file HR, dan dokumen teratur.

Audit Privasi

Pastikan tidak ada kebocoran PII dalam arkib yang dipindai, pada papan, atau file bukti.

Batch DLP (Pencegahan Kehilangan Data)

Hentikan berbagi atau penyimpanan informasi sensitif secara tidak sengaja dalam gambar yang dipindai.

Tantangan dan Solusi Umum

Tantangan 1: Menemukan wilayah teks yang tepat

** Solusi:** Gunakan output wilayah teks OCR dan peta untuk koordinat gambar untuk menyembunyikan.

Tantangan 2: Positif dan Negatif

** Solusi:** Buat daftar kata kunci, validasi gambar yang diedit, dan lakukan audit.

Tantangan 3: Ukuran pekerjaan batch

** Solusi:** Parallelize dan otomatis menangani kesalahan untuk skala.

Pertimbangan kinerja

  • Perhitungan wilayah dan penulisan gambar mungkin lambat untuk batch besar—menggunakan async jika perlu
  • Daftar semua edisi untuk pemeriksaan pematuhan

Praktik Terbaik

  • Pemeriksaan wilayah memetakan ketepatan dengan gambar yang bervariasi
  • Meningkatkan daftar kata kunci secara teratur untuk pola PII baru
  • Mengamankan kedua file asli dan teredit
  • Memeriksa dengan manual spot-checks

Skenario Lanjutan

Skenario 1: Blur bukannya Blackout

Gunakan filter gambar untuk menggosok daerah yang dideteksi untuk masker yang lebih halus.

Skenario 2: Kustom Redaksi/Teks Penggantian

Overlay label tersuai (misalnya, “REDACTED”) bukannya kotak hitam.

Kesimpulan

Aspose.OCR Image Text Finder untuk .NET memungkinkan Anda untuk mengautomatikkan penulisan PII / kata kunci pada skala – mengurangi risiko hukum dan menjamin privasi di seluruh arkib gambar.

Untuk API regional yang akurat dan integrasi redaksi, lihat Aspose.OCR untuk .NET API Referensi .

 Indonesia