.NET을 사용하여 자동 PII 또는 키워드 편집 파이프라인을 만드는 방법

.NET을 사용하여 자동 PII 또는 키워드 편집 파이프라인을 만드는 방법

스캔 된 이미지에서 개인 식별 가능한 정보 (PII) 및 민감한 키워드를 편집하는 것은 개인 정보, 법률 및 준수 작업에 필수적입니다. .NET을위한 Aspose.OCR Image Text Finder는 배치 작업 흐름에서 자동화 할 수 있습니다.

현실 세계 문제

스캔된 아카이브의 기밀 데이터의 수동 편집은 느리고, 오류가 발생하며, 비용이 비싸다.자동화는 준수 및 개인 정보 보호 검토에 대한 신뢰할 수 있고 일관된 마스크를 보장하기 위해 필요합니다.

솔루션 검토

OCR를 사용하여 PII 또는 키워드를 자동으로 탐지하고, 그 다음에 마스크, 블루, 또는 이미지에서 그들을 대체하고 편집 된 결과를 저장 - 개인 정보 보호 및 보안을 보장합니다.

원칙

  • Visual Studio 2019 또는 이후
  • .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
  • NuGet에서 .NET을 위한 ASPOSE.OCR
  • PII 또는 텍스트 파일의 키워드 목록
PM> Install-Package Aspose.OCR

단계별 실행

단계 1: PII / 키워드 목록 및 입력 이미지 준비

List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");

단계 2 : PII / 키워드 검색

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
    foreach (string pii in piiList)
    {
        bool found = ocr.ImageHasText(file, pii, settings);
        if (found)
        {
            // Proceed to redact in Step 3
        }
    }
}

단계 3 : 발견 된 용어를 편집하거나 마스크

  • Aspose.OCR은 용어를 감지하는 동안, 편집은 이미지 라이브러리 (예를 들어, System.Drawing, SkiaSharp)와 함께 적용되어야합니다.
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
    using (var g = Graphics.FromImage(image))
    {
        // Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
        // g.FillRectangle(Brushes.Black, x, y, width, height);
    }
    image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}

단계 4 : 편집된 파일을 기록합니다.

File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");

단계 5 : 완성 배치 작업 흐름 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;

class Program
{
    static void Main(string[] args)
    {
        List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
        string[] files = Directory.GetFiles("./input", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        foreach (string file in files)
        {
            foreach (string pii in piiList)
            {
                bool found = ocr.ImageHasText(file, pii, settings);
                if (found)
                {
                    // Redact by overlay (simplified; see docs for bounding box)
                    using (var image = new Bitmap(file))
                    using (var g = Graphics.FromImage(image))
                    {
                        // Example: Draw rectangle where text is found (requires OCR region info)
                        // g.FillRectangle(Brushes.Black, x, y, width, height);
                        // Save redacted copy
                        image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
                    }
                    File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
                }
            }
        }
    }
}

참고: 정확한 지역 지도를 위해 Aspose.OCR의 인식 지역 APIs를 사용하여 발견 된 텍스트 블록의 코디네이트를 얻고 정확하게 마스크합니다.

사례 및 응용 프로그램 사용

법률 및 준수

계약, HR 파일 및 규제 된 문서의 자동 작성.

개인 정보 검토

스캔 된 아카이브, 탑승 또는 증거 파일에 PII 유출을 보장하지 마십시오.

데이터 손실 예방 (Data Loss Prevention)

스캔된 이미지에서 민감한 정보를 우연히 공유하거나 저장하는 것을 중단하십시오.

일반적인 도전과 해결책

도전 1 : 정확한 텍스트 지역을 찾는 방법

솔루션: OCR 텍스트 지역 출력 및 지도를 이미지 조각으로 사용하여 마스크합니다.

도전 2 : 가짜 긍정 / 부정

솔루션: 키워드 목록을 작성하고 편집된 이미지를 인증하고 검토를 수행합니다.

도전 3 : 배치 작업 크기

** 솔루션:** 스케일에 대한 동시화 및 자동 오류 처리.

성과 고려 사항

  • 지역 계산 및 이미지 작성은 큰 배치에서 느릴 수 있습니다—필요한 경우 async를 사용합니다.
  • 모든 편집을 등록하여 준수 검토

모범 사례

  • 다양한 이미지로 정확성을 지도하는 지역 테스트
  • 새로운 PII 패턴에 대한 키워드 목록을 정기적으로 업데이트합니다.
  • 원본 및 편집 파일 모두 보안
  • 수동 포트 체크로 인증

고급 시나리오

시나리오 1 : 블라카우트 대신 블루

이미지 필터를 사용하여 감지된 지역을 더 부드럽게 마스크하십시오.

시나리오 2 : 사용자 지정 편집 / 대체 텍스트

검은 상자 대신 사용자 지정 레이블 (예를 들어, “REDACTED”)을 덮으십시오.

결론

ASPOSE.OCR Image Text Finder for .NET은 PII/keyword 편집을 스케일로 자동화하여 법적 위험을 줄이고 이미지 아카이브에 대한 개인 정보를 보장할 수 있습니다.

정확한 지역 APIs 및 편집 통합을 위해, 참조 .NET API 참조를 위한 ASPOSE.OCR .

 한국어