Hogyan készítsünk egy automatizált PII vagy Keyword Redaction Pipeline .NET segítségével
A személyesen azonosítható információk (PII) és érzékeny kulcsszavak szerkesztése a szkennelt képekben elengedhetetlen a magánélet, a jogi és a megfelelőségi műveletek szempontjából.A Aspose.OCR Image Text Finder for .NET lehetővé teszi a tömeges munkafolyamatok automatizálását és felismerését.
Valódi problémák
A titkos adatok kézi szerkesztése a szkennelt archívumokban lassú, hibaellenes és költséges.Az automatizálás szükséges a megbízható és következetes elrejtés biztosításához a megfelelőség és a magánélet ellenőrzése érdekében.
megoldás áttekintése
Automatikusan észleli a PII-t vagy a kulcsszavakat az OCR használatával, majd maszkolja, fújja, vagy helyettesíti őket a képben, és mentse meg a szerkesztett eredményeket – biztosítva a magánéletet és a biztonságot.
előfeltételek
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET a NuGet-ről
- PII vagy kulcsszavak listája szöveges fájlban
PM> Install-Package Aspose.OCR
lépésről lépésre megvalósítás
1. lépés: Készítsen PII / kulcsszavak listáját és a beviteli képeket
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
2. lépés: Keresés PII / kulcsszavak
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Proceed to redact in Step 3
}
}
}
3. lépés: Írja le vagy maszkolja a feltárt feltételeket
- Míg az Aspose.OCR feltárja a kifejezéseket, a szerkesztést képkönyvtárakkal (például System.Drawing, SkiaSharp) kell alkalmazni.
// Example using System.Drawing to overlay black box (simplified)
using (var image = new Bitmap(file))
{
using (var g = Graphics.FromImage(image))
{
// Locate/estimate bounding box for found term (requires mapping OCR region, see docs/API)
// g.FillRectangle(Brushes.Black, x, y, width, height);
}
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
4. lépés: Adja meg a szerkesztett fájlokat
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
5. lépés: A teljes munkafolyamat példája
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
using System.Drawing;
class Program
{
static void Main(string[] args)
{
List<string> piiList = new List<string>(File.ReadAllLines("pii_keywords.txt"));
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string pii in piiList)
{
bool found = ocr.ImageHasText(file, pii, settings);
if (found)
{
// Redact by overlay (simplified; see docs for bounding box)
using (var image = new Bitmap(file))
using (var g = Graphics.FromImage(image))
{
// Example: Draw rectangle where text is found (requires OCR region info)
// g.FillRectangle(Brushes.Black, x, y, width, height);
// Save redacted copy
image.Save($"./redacted/redacted_{Path.GetFileName(file)}");
}
File.AppendAllText("redaction_log.csv", $"{file},{pii},redacted\n");
}
}
}
}
}
Megjegyzés: A pontos térképezéshez használja az Aspose.OCR felismerési régió API-kat, hogy azonosított szöveges blokkok koordinátáit kapja, majd pontosan maszkolja.
Esetek és alkalmazások használata
Jogi és megfelelőségi
Szerződések, HR fájlok és szabályozott dokumentumok automatikus szerkesztése.
Adatvédelmi ellenőrzések
Győződjön meg arról, hogy a PII nem bocsát ki szkennelt archívumokban, fedélzetén vagy bizonyítékfájlokban.
Batch DLP (adatvesztés megelőzése)
Hagyja abba az érzékeny információk véletlenszerű megosztását vagy tárolását a szkennelt képekben.
Közös kihívások és megoldások
1. kihívás: pontos szövegterületek megtalálása
** Megoldás:** Használja az OCR szöveges régió kimenetelét és térképét a kép koordinátáira a maszkoláshoz.
2. kihívás: hamis pozitív / negatív
** Megoldás:** A kulcsszavak listáit, a szerkesztett képek érvényesítését és a könyvvizsgálat elvégzését.
3. kihívás: Batch Job Size
** Megoldás:** Parallelize és automatizálja a hiba kezelést a skálán.
A teljesítmény megfontolása
- A régió kiszámítása és a képírás lassú lehet a nagy töredékek esetében – szükség esetén az async használata
- Jelentkezzen be az összes szerkesztőséghez a megfelelőség felülvizsgálatához
Legjobb gyakorlatok
- A térség pontosságát különböző képekkel teszteli
- Rendszeresen frissíti a kulcsszavak listáit az új PII mintákhoz
- Az eredeti és a szerkesztett fájlok védelme
- Manuális spot-checks használatával
fejlett forgatókönyvek
1. forgatókönyv: Blur helyett Blackout
Használja a képszűrőket, hogy a felfedezett területeket finomabb maszkra öblítse.
2. forgatókönyv: Személyre szabott szerkesztés / helyettesítő szöveg
Öblítse a beállított címkét (például „REDACTED”) a fekete doboz helyett.
következtetések
Az ASPOSE.OCR Image Text Finder for .NET lehetővé teszi, hogy automatizálja a PII / kulcsszó szerkesztését a skálán – csökkenti a jogi kockázatot és biztosítja a magánéletet a kép archívumokban.
Pontos regionális APIs és szerkesztői integráció, lásd: Az ASPOSE.OCR a .NET API referenciájához .