.NET을 사용하여 자동 PII 또는 키워드 편집 파이프라인을 만드는 방법
스캔 된 이미지에서 개인 식별 가능한 정보 (PII) 및 민감한 키워드를 편집하는 것은 개인 정보, 법률 및 준수 작업에 필수적입니다. .NET을위한 Aspose.OCR Image Text Finder는 배치 작업 흐름에서 자동화 할 수 있습니다.
현실 세계 문제
스캔된 아카이브의 기밀 데이터의 수동 편집은 느리고, 오류가 발생하며, 비용이 비싸다.자동화는 준수 및 개인 정보 보호 검토에 대한 신뢰할 수 있고 일관된 마스크를 보장하기 위해 필요합니다.
솔루션 검토
OCR를 사용하여 PII 또는 키워드를 자동으로 탐지하고, 그 다음에 마스크, 블루, 또는 이미지에서 그들을 대체하고 편집 된 결과를 저장 - 개인 정보 보호 및 보안을 보장합니다.
원칙
- Visual Studio 2019 또는 이후
- .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
- NuGet에서 .NET을 위한 ASPOSE.OCR
- PII 또는 텍스트 파일의 키워드 목록
PM> Install-Package Aspose.OCR
단계별 실행
단계 1: PII / 키워드 목록 및 입력 이미지 준비
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
단계 2 : PII / 키워드 검색
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Proceed to redact in Step 3
}
}
}
단계 3 : 발견 된 용어를 편집하거나 마스크
- Aspose.OCR은 용어를 감지하는 동안, 편집은 이미지 라이브러리 (예를 들어, System.Drawing, SkiaSharp)와 함께 적용되어야합니다.
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
using (var g = Graphics.FromImage(image))
{
// Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
// g.FillRectangle(Brushes.Black, x, y, width, height);
}
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
단계 4 : 편집된 파일을 기록합니다.
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
단계 5 : 완성 배치 작업 흐름 예제
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;
class Program
{
static void Main(string[] args)
{
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Redact by overlay (simplified; see docs for bounding box)
using (var image = new Bitmap(file))
using (var g = Graphics.FromImage(image))
{
// Example: Draw rectangle where text is found (requires OCR region info)
// g.FillRectangle(Brushes.Black, x, y, width, height);
// Save redacted copy
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
}
}
}
}
}
참고: 정확한 지역 지도를 위해 Aspose.OCR의 인식 지역 APIs를 사용하여 발견 된 텍스트 블록의 코디네이트를 얻고 정확하게 마스크합니다.
사례 및 응용 프로그램 사용
법률 및 준수
계약, HR 파일 및 규제 된 문서의 자동 작성.
개인 정보 검토
스캔 된 아카이브, 탑승 또는 증거 파일에 PII 유출을 보장하지 마십시오.
데이터 손실 예방 (Data Loss Prevention)
스캔된 이미지에서 민감한 정보를 우연히 공유하거나 저장하는 것을 중단하십시오.
일반적인 도전과 해결책
도전 1 : 정확한 텍스트 지역을 찾는 방법
솔루션: OCR 텍스트 지역 출력 및 지도를 이미지 조각으로 사용하여 마스크합니다.
도전 2 : 가짜 긍정 / 부정
솔루션: 키워드 목록을 작성하고 편집된 이미지를 인증하고 검토를 수행합니다.
도전 3 : 배치 작업 크기
** 솔루션:** 스케일에 대한 동시화 및 자동 오류 처리.
성과 고려 사항
- 지역 계산 및 이미지 작성은 큰 배치에서 느릴 수 있습니다—필요한 경우 async를 사용합니다.
- 모든 편집을 등록하여 준수 검토
모범 사례
- 다양한 이미지로 정확성을 지도하는 지역 테스트
- 새로운 PII 패턴에 대한 키워드 목록을 정기적으로 업데이트합니다.
- 원본 및 편집 파일 모두 보안
- 수동 포트 체크로 인증
고급 시나리오
시나리오 1 : 블라카우트 대신 블루
이미지 필터를 사용하여 감지된 지역을 더 부드럽게 마스크하십시오.
시나리오 2 : 사용자 지정 편집 / 대체 텍스트
검은 상자 대신 사용자 지정 레이블 (예를 들어, “REDACTED”)을 덮으십시오.
결론
ASPOSE.OCR Image Text Finder for .NET은 PII/keyword 편집을 스케일로 자동화하여 법적 위험을 줄이고 이미지 아카이브에 대한 개인 정보를 보장할 수 있습니다.
정확한 지역 APIs 및 편집 통합을 위해, 참조 .NET API 참조를 위한 ASPOSE.OCR .