.NET で自動 PII またはキーワード編集パイプラインを作成する方法

.NET で自動 PII またはキーワード編集パイプラインを作成する方法

スキャンされた画像における個人識別情報(PII)と敏感なキーワードの編集は、プライバシー、法的、および遵守作業に不可欠です。

現実世界問題

スキャンされたアーカイブにおける機密データの手動編集は遅く、エラー予防的で、高価です 自動化は、遵守およびプライバシー監査のための信頼性と一貫したマッキングを確保するために必要です。

ソリューション概要

OCR を使用して PII またはキーワードを自動的に検出し、その後マスク、ブラウ、または画像に置き換え、編集された結果を保存します - プライバシーとセキュリティを確保します。

原則

  • Visual Studio 2019 以降
  • .NET 6.0 またはそれ以降(または .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET から NuGet
  • PIIまたはテキストファイルのキーワードリスト
PM> Install-Package Aspose.OCR

ステップ・ステップ・実施

ステップ1:PII/キーワードリストと入力画像の準備

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

ステップ2:PII/キーワードの検索

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

ステップ3:発見された条件を編集またはマスク

  • Aspose.OCR は用語を検出する一方で、編集は画像図書館(例えば、System.Drawing、SkiaSharp)で適用される必要があります。
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

ステップ4:編集ファイルをログイン

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

ステップ5:完成バッチワークフローの例

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

注: 正確な地域マッピングには、Aspose.OCR の認定地域 API を使用して、検出されたテキストブロックのコーディネートを取得し、その後、精密にマスクします。

ケースとアプリケーションの使用

法的および遵守

契約、人事ファイル、規制文書の自動編集

プライバシー監査

スキャンされたアーカイブ、オンボード、または証拠ファイルにPII漏れを保証しないでください。

バッチDLP(データ損失予防)

スキャンされた画像に敏感な情報の偶然の共有または保存を停止します。

共通の課題と解決策

課題1:正確なテキスト地域の検索

ソリューション: OCR テキスト エリア 出力と地図を使用して、マッキングのための画像 コーディネートに使用します。

チャレンジ2:偽のポジティブ/ネガティビ

**ソリューション:**キーワードリスト、編集された画像を有効にし、監査を実行します。

チャレンジ3:バッチワークサイズ

ソリューション: スケールのためのパラレル化および自動エラー処理。

パフォーマンス考慮

  • 地域計算および画像書き込みは、大きなバッチで遅くなる可能性があります - 必要に応じてアシンクを使用します。
  • すべての編集を登録して、遵守レビュー

ベストプラクティス

  • 多様な画像で正確さをマッピングする地域テスト
  • 新しいPIIパターン向けのキーワードリストを定期的に更新
  • オリジナルと編集ファイルの両方を保護する
  • 手動スポットチェックで確認

高度なシナリオ

シナリオ1:ブラックアウトの代わりにブルー

画像フィルターを使用して、より微妙なマッキングのために検出された地域をブレイクします。

シナリオ2:カスタマイズ編集/代替テキスト

ブラックボックスの代わりにカスタマイズラベル(例えば「REDACTED」)をカバーします。

結論

Aspose.OCR Image Text Finder for .NET は、PII/キーワード編集をスケールで自動化することを可能にし、法的リスクを減らし、画像アーカイブのプライバシーを確保します。

正確な地域APIと編集統合については、参照してください。 ASPOSE.OCR for .NET API リファレンス .

 日本語