Kaip pašalinti asmeninius ar jautrius duomenis iš nuotraukų su Aspose.OCR

Kaip pašalinti asmeninius ar jautrius duomenis iš nuotraukų su Aspose.OCR

Asmens ar jautrių duomenų iš vaizdų ištraukimas yra labai svarbus atitikties, privatumo audito ir automatinio duomenų praradimo prevencijai. „Aspose.OCR for .NET“ leidžia ieškoti, išeiti ir peržiūrėti konfidencialią turinį skaitmeniniuose vaizduose ir skenuojamuose dokumentuose.

Realaus pasaulio problemos

Organizacijos turi rasti ir parengti asmeniškai identifikuojamą informaciją (PII) arba konfidencialius duomenis, paslėptus skenuojamuose sutartyse, formose ar skaitmeninėse nuotraukose.

Sprendimo apžvalga

Aspose.OCR .NET gali ieškoti tam tikrų teksto pavyzdžių (vardai, adresas, ID, sąskaitos numerius ir tt), net naudojant reguliarius žodžius, ir ištrauka ar ataskaita apie jautrius duomenis.

Prerequisites

  • „Visual Studio 2019“ arba vėliau
  • .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
  • ASPOSE.OCR už .NET iš NuGet
  • Pagrindinė C# patirtis
PM> Install-Package Aspose.OCR

Žingsnis po žingsnio įgyvendinimas

1 žingsnis: Įdiegti ir konfigūruoti Aspose.OCR

using Aspose.OCR;

2 žingsnis: paruoškite savo vaizdo failus

string img1 = "id_card.png";
string img2 = "contract_scan.jpg";

3 žingsnis: nustatykite PII / jautrią modelio pripažinimą

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

4 žingsnis: PII ar konfidencialių duomenų paieška nuotraukose

  • Naudokite string/regex modelius, kad atitiktų PII (pavyzdžiui, vardai, SSN, sąskaitos numeriai, el. Laiškai):
AsposeOcr ocr = new AsposeOcr();
bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // US SSN pattern
bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

5 žingsnis: Ekstrakcija ir pranešimas apie jautrią turinį

  • Išimkite visus pripažintus tekstus tolesniam apdorojimui:
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add(img1);
input.Add(img2);
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // For human review
    result.Save("extracted_data.txt", SaveFormat.Text); // Save for audit/compliance
}

6 žingsnis: pridėti klaidų tvarkymą

try
{
    bool found = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

7 žingsnis: optimizuokite daugiafunkcinius arba automatinius auditus

  • „Batch“ tvarkymo failų failai organizacijos auditui
  • Įveskite rezultatus į centrinę duomenų bazę arba failą atitikties peržiūrai
foreach (string file in Directory.GetFiles("./images", "*.png"))
{
    bool found = ocr.ImageHasText(file, @"[A-Z]{2}[0-9]{6}", settings); // Example: passport pattern
    if (found) { Console.WriteLine($"PII found in: {file}"); }
}

8 žingsnis: pilnas pavyzdys

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            AsposeOcr ocr = new AsposeOcr();

            string img1 = "id_card.png";
            string img2 = "contract_scan.jpg";

            bool foundSsn = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings);
            bool foundEmail = ocr.ImageHasText(img2, @"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}", settings);

            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add(img1);
            input.Add(img2);
            List<RecognitionResult> results = ocr.Recognize(input, settings);
            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("extracted_data.txt", SaveFormat.Text);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Naudokite atvejus ir paraiškas

Privatumo ir atitikties auditas

Paieškos nuotraukos PII (vardai, SSN, adresai) laikytis GDPR, CCPA ir vidaus privatumo įsipareigojimų.

Rašymo automatizacija

Automatiškai vėliava arba rašo konfidencialią turinį teisiniais ir verslo dokumentais.

Skaitmeninė teisinė ir apžvalga

Pagreitinkite rankų peržiūrą, pabrėžiant jautrią turinį per didelius duomenų rinkinius.

Bendrieji iššūkiai ir sprendimai

1 iššūkis: sudėtingas arba rankiniu būdu parašytas PII

Išsprendimas: Naudokite aukštos kokybės skenavimus, išbandykite reguliarius išraiškas ir papildykite rankiniu būdu.

Iššūkis 2: didelio tūrio vaizdų rinkinys

Išsprendimas: Atkreipkite dėmesį į failų ir eksporto rezultatų procesą ataskaitoms.

Iššūkis 3: Pritaikytos PII modeliai

Išsprendimas: Naudokite pritaikytą regex jūsų organizacijos unikalų duomenų tipą.

Veiksmingumo apžvalgos

  • Batch procesas greičiui
  • Fine-tune regex jūsų PII tipams
  • OCR objektų naudojimas po bėgimo

Geriausios praktikos

  • Testas PII paieškos įvairiais pavyzdžiais nuotraukų
  • Reguliariai atnaujinamos regex ir atitikties nustatymai
  • Saugokite visus rezultatus ir išvestus duomenis
  • Atsisiųsti tiek originalius, tiek tvarkomus failus

Išplėstiniai scenarijai

1 scenarijus: daugiakalbė arba tarptautinė PII

settings.Language = Language.French;

2 scenarijus: eksportuoti į JSON atitikties ataskaitoms

foreach (RecognitionResult result in results)
{
    result.Save("extracted_data.json", SaveFormat.Json);
}

Conclusion

Aspose.OCR .NET suteikia jums galią identifikuoti ir ištraukti jautrią informaciją iš vaizdų ir skenavimo, automatizuojant atitikties ir privatumo darbo srautus.

Žiūrėti daugiau pažangių kodo pavyzdžių ASPOSE.OCR už .NET API nuorodą .

 Lietuvių