Aspose.OCR을 사용하여 이미지에서 개인 또는 민감한 데이터를 추출하는 방법

Aspose.OCR을 사용하여 이미지에서 개인 또는 민감한 데이터를 추출하는 방법

이미지에서 개인 또는 민감한 데이터를 추출하는 것은 준수, 개인 정보 보호 검사 및 자동 데이터 손실 예방에 필수적입니다. .NET의 Aspose.OCR은 디지털 이미지 및 스캔 된 문서 내에서 신뢰할 수있는 콘텐츠를 검색, 추구 및 검토 할 수 있습니다.

현실 세계 문제

조직은 스캔 된 계약, 양식 또는 디지털 사진에 숨겨진 개인 식별 정보 (PII) 또는 기밀 데이터를 찾고 작성해야합니다.

솔루션 검토

Aspose.OCR for .NET은 특정 텍스트 패턴 (이름, 주소, ID, 계정 번호 등)을 찾을 수 있습니다, 심지어 정기적 인 표현을 사용하고, 추출 또는 민감한 데이터에 대한 보고서.이 GDPR/CCPA 검토, PII 탐지 또는 데이터 보안 자동화에 이상적입니다.

원칙

  • Visual Studio 2019 또는 이후
  • .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
  • NuGet에서 .NET을 위한 ASPOSE.OCR
  • 기본 C# 경험
PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : ASPOSE.OCR 설치 및 설정

using Aspose.OCR;

단계 2 : 사진 파일을 준비하십시오.

string img1 = "id_card.png";
string img2 = "contract_scan.jpg";

3단계: PII/Sensitive Pattern Recognition 설정

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

단계 4: 이미지에서 PII 또는 기밀 데이터를 검색

  • PII와 일치하기 위해 string/regex 패턴을 사용하십시오 (예 이름, SSN, 계정 번호, 이메일과 같은):
AsposeOcr ocr = new AsposeOcr();
bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // US SSN pattern
bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

5단계 : 민감한 콘텐츠 추출 및 보고

  • 추가 처리를 위해 인정된 모든 텍스트를 추출하십시오 :
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add(img1);
input.Add(img2);
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // For human review
    result.Save("extracted_data.txt", SaveFormat.Text); // Save for audit/compliance
}

단계 6 : 오류 처리 추가

try
{
    bool found = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

단계 7 : 대량 또는 자동 검토를 위해 최적화

  • 조직 전반적인 감사를 위한 배치 처리 파일
  • 결과를 중앙 데이터베이스 또는 준수 검토 파일에 로그
foreach (string file in Directory.GetFiles("./images", "*.png"))
{
    bool found = ocr.ImageHasText(file, @"[A-Z]{2}[0-9]{6}", settings); // Example: passport pattern
    if (found) { Console.WriteLine($"PII found in: {file}"); }
}

단계 8 : 완전한 예제

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();

            string img1 = "id_card.png";
            string img2 = "contract_scan.jpg";

            bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
            bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add(img1);
            input.Add(img2);
            List<RecognitionResult> results = ocr.Recognize(input, settings);
            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("extracted_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

사례 및 응용 프로그램 사용

개인 정보 보호 및 준수 검토

PII (이름, SSN, 주소)에 대한 검색 이미지는 GDPR, CCPA 및 내부 개인 정보 보호 의무를 준수합니다.

편집자 자동화

법률 및 비즈니스 문서에서 자동으로 깃발 또는 기밀 콘텐츠를 작성합니다.

디지털 법률 및 검토

큰 데이터 세트를 통해 민감한 콘텐츠를 강조함으로써 수동 검토를 가속화합니다.

일반적인 도전과 해결책

도전 1 : 복잡한 또는 수동으로 쓰여진 PII

솔루션: 고품질 스캔을 사용하고, 정기적 인 표현을 테스트하며, 수동 검토로 보완합니다.

도전 2 : 높은 볼륨 이미지 세트

** 솔루션:** 보고를 위해 폴더 및 수출 결과에 배치 프로세스.

도전 3 : 사용자 지정 PII 패턴

** 솔루션:** 조직의 독특한 데이터 유형에 대 한 사용자 지정 regex.

성과 고려 사항

  • 속도를 위한 배치 프로세스
  • 당신의 PII 유형을위한 Fine-tune regex
  • 실행 후 OCR 물건의 사용

모범 사례

  • 테스트 PII 검색 다양한 이미지 샘플
  • 정기적으로 regex 및 준수 설정 업데이트
  • 모든 결과 및 추출 된 데이터를 보장합니다.
  • 원본 및 처리 된 파일 모두 백업

고급 시나리오

시나리오 1 : 다국어 또는 국제 PII

settings.Language = Language.French;

시나리오 2 : 준수 보고를 위해 JSON에 수출

foreach (RecognitionResult result in results)
{
    result.Save("extracted_data.json", SaveFormat.Json);
}

결론

Aspose.OCR for .NET은 이미지와 스캔에서 민감한 정보를 식별하고 추출 할 수있는 힘을 제공하며, 규모별로 준수 및 개인 정보 작업 흐름을 자동화합니다.

더 많은 고급 코드 샘플을 보세요 .NET API 참조를 위한 ASPOSE.OCR .

 한국어