Как да се извличат лични или чувствителни данни от изображения с Aspose.OCR

Как да се извличат лични или чувствителни данни от изображения с Aspose.OCR

Извличането на лични или чувствителни данни от изображенията е от решаващо значение за спазването, одитите за поверителност и автоматизираната превенция на загубата на данни. ASPOSE.OCR за .NET ви позволява да търсите, извлечете и прегледате конфиденциалното съдържание в цифровите снимки и скенираните документи.

Реални световни проблеми

Организациите трябва да намират и редактират лична идентифицираща информация (PII) или поверителни данни, скрити в скенирани договори, формуляри или цифрови снимки.

Преглед на решението

Aspose.OCR за .NET може да търси конкретни текстови шаблони (имена, адреси, идентификатори, номера на акаунта и т.н.), дори с помощта на редовни изрази и извличане или отчитане на чувствителни данни.

Предупреждения

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
  • Основен C# опит
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Инсталирайте и конфигурирайте Aspose.OCR

using Aspose.OCR;

Стъпка 2: Подгответе файловете си с изображения

string img1 = "id_card.png";
string img2 = "contract_scan.jpg";

Стъпка 3: Конфигуриране на PII/Sensitive Pattern Recognition

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Стъпка 4: Търсене на PII или поверителни данни в изображения

  • Използвайте шаблони string/regex, за да съответствате на PII (като имена, SSNs, номера на акаунти, имейли):
AsposeOcr ocr = new AsposeOcr();
bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // US SSN pattern
bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

Стъпка 5: Извличане и докладване на чувствително съдържание

  • Извлечете всички признати текстове за по-нататъшна обработка:
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add(img1);
input.Add(img2);
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // For human review
    result.Save("extracted_data.txt", SaveFormat.Text); // Save for audit/compliance
}

Стъпка 6: Добавете обработка на грешки

try
{
    bool found = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Стъпка 7: Оптимизиране за масови или автоматизирани одити

  • Бач обработване на папки от файлове за организационни одити
  • Регистриране на резултатите в централна база данни или файл за преглед на съответствието
foreach (string file in Directory.GetFiles("./images", "*.png"))
{
    bool found = ocr.ImageHasText(file, @"[A-Z]{2}[0-9]{6}", settings); // Example: passport pattern
    if (found) { Console.WriteLine($"PII found in: {file}"); }
}

Стъпка 8: Допълнителен пример

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();

            string img1 = "id_card.png";
            string img2 = "contract_scan.jpg";

            bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
            bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add(img1);
            input.Add(img2);
            List<RecognitionResult> results = ocr.Recognize(input, settings);
            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("extracted_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Използване на случаи и приложения

Контрол на поверителността и съответствието

Търсене на изображения за PII (имена, SSNs, адреси) за спазване на GDPR, CCPA и вътрешни задължения по поверителност.

Автоматизиране на редактирането

Автоматично флаг или редактиране на поверително съдържание в правни и бизнес документи.

Дигитална правосудие и преглед

Ускорете ръчния преглед, като подчертавате чувствителното съдържание в големите набори от данни.

Съвместни предизвикателства и решения

Предизвикателство 1: Комплексно или ръчно написано PII

Решение: Използвайте висококачествени скани, тествайте редовни изрази и допълвайте с ръчен преглед.

Предизвикателство 2: Комплект с изображения с голям обем

Решението: Процесът на събиране в папки и резултатите от износа за докладване.

Предизвикателство 3: Custom PII Patterns

Решение: Използвайте персонализиран regex за уникалните типове данни на вашата организация.

Преглед на изпълнението

  • Процесът на бач за скорост
  • Fine-tune regex за вашите PII типове
  • На разположение на ОКР обекти след състезания

Най-добрите практики

  • Тест PII търсене на различни проби от изображения
  • Редовно актуализиране на настройките за regex и съответствие
  • Осигуряване на всички резултати и извлечени данни
  • Възстановяване както на оригинални, така и на обработени файлове

Разширени сценарии

Сценарий 1: Многоезичен или международен PII

settings.Language = Language.French;

Сценарий 2: Износ към JSON за отчитане на съответствието

foreach (RecognitionResult result in results)
{
    result.Save("extracted_data.json", SaveFormat.Json);
}

заключение

Aspose.OCR за .NET ви дава възможност да идентифицирате и извличате чувствителна информация от изображения и скани, като автоматизирате съответствието и поверителността на работните потоци по мащаб.

Вижте по-напреднали кодови проби в Aspose.OCR за .NET API Референт .

 Български