Як витягти особисті або чутливі дані з зображень за допомогою Aspose.OCR

Як витягти особисті або чутливі дані з зображень за допомогою Aspose.OCR

Витяг особистих або чутливих даних з зображень є ключовим для дотримання, аудитів конфіденційності та автоматизованої запобігання втраті даних. ASPOSE.OCR для .NET дозволяє шукати, витягувати та переглядати довірений вміст в цифрових знімках та сканованих документах.

Реальні проблеми світу

Організації повинні знайти і редагувати персональну ідентифіковану інформацію (PII) або конфіденційні дані, приховані в сканованих контрактах, формах або цифрових фотографіях.

Огляд рішення

Aspose.OCR для .NET може шукати конкретні текстові шаблони (імена, адреси, ідентифікатори, номери облікового запису тощо), навіть за допомогою регулярних виразів, а також екстракт або звіт про чутливі дані.Це ідеально підходить для аудитів GDPR/CCPA, виявлення PII або автоматизації безпеки даних.

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Досвід C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

using Aspose.OCR;

Крок 2: Підготуйте файли зображення

string img1 = "id_card.png";
string img2 = "contract_scan.jpg";

Крок 3: Налаштування PII/Sensitive Pattern Recognition

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Крок 4: Пошук PII або конфіденційних даних у зображеннях

  • Використовуйте шаблони string/regex, щоб відповідати PII (наприклад, імена, SSN, номери облікових записів, електронні листи):
AsposeOcr ocr = new AsposeOcr();
bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // US SSN pattern
bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

Крок 5: Екстракт і доповідь чутливого контенту

  • Витяг усіх визнаних текстів для подальшого обробки:
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add(img1);
input.Add(img2);
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // For human review
    result.Save("extracted_data.txt", SaveFormat.Text); // Save for audit/compliance
}

Крок 6: Використання помилок

try
{
    bool found = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація для масових або автоматизованих аудитів

  • Батч-процесувати папки файлів для організаційних аудитів
  • Зареєструйте результати в центральну базу даних або файл для перевірки відповідності
foreach (string file in Directory.GetFiles("./images", "*.png"))
{
    bool found = ocr.ImageHasText(file, @"[A-Z]{2}[0-9]{6}", settings); // Example: passport pattern
    if (found) { Console.WriteLine($"PII found in: {file}"); }
}

Крок 8: Повний приклад

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();

            string img1 = "id_card.png";
            string img2 = "contract_scan.jpg";

            bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
            bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add(img1);
            input.Add(img2);
            List<RecognitionResult> results = ocr.Recognize(input, settings);
            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("extracted_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Контроль конфіденційності та відповідності

Пошук зображень для PII (імена, SSN, адреси) для дотримання GDPR, CCPA та внутрішніх зобов’язань щодо конфіденційності.

Редакційна автоматизація

Автоматично флаг або редагувати конфіденційний контент в юридичних і ділових документах.

Цифрова юриспруденція та рецензія

Прискорення ручного перегляду, підкреслюючи чутливий контент по великим наборам даних.

Спільні виклики та рішення

Виклик 1: Комплекс або рукописаний PII

Рішення: Використовуйте високоякісні скани, перевіряйте регулярні вирази і доповнюйте їх ручним оглядом.

Докладніше: Challenge 2: High Volume Image Set

Рішення: Процес обробки в папках і результати експорту для доповіді.

Створення Challenge 3: Custom PII Patterns

Рішення: Використовуйте персоналізований регекс для унікальних типів даних вашої організації.

Виконання розглядів

  • Батч-процес для швидкості
  • Fine-tune regex для ваших типів PII
  • Використання об’єктів ОКР після поїздок

Найкращі практики

  • Тест PII пошук на різноманітних зразках зображень
  • Регулярні оновлення режиму регекса та налаштувань відповідності
  • Забезпечити всі результати та вилучені дані
  • Завантажити як оригінальні, так і оброблені файли

Розширені сценарії

Сценарій 1: багатомовний або міжнародний PII

settings.Language = Language.French;

Сценарій 2: Експорт до JSON для доповіді про відповідність

foreach (RecognitionResult result in results)
{
    result.Save("extracted_data.json", SaveFormat.Json);
}

Заключення

Aspose.OCR для .NET дає вам можливість ідентифікувати і витягувати чутливу інформацію з зображень і сканів, автоматизуючи робочі потоки дотримання та конфіденційності в масштабах.

Переглянути більш розвинені зразки коду в Aspose.OCR для .NET API Референт .

 Українська