كيفية البحث عن الكلمات الرئيسية المتعددة أو النماذج في الصور
البحث عن عدة كلمات رئيسية أو نماذج نصية في أرشيف الصور الكبيرة أمر حاسم للامتثال والأمن والاكتشاف الرقمي. Aspose.OCR Image Text Finder for .NET يجعل من السهل تجميع صور الفحص لقوائم الكلمات الرئيسية أو نموذجات regex.
مشكلة العالم الحقيقي
المراجعة اليدوية للصور لعدة مصطلحات (على سبيل المثال، الأسماء، الهوية، العبارات السرية) بطيئة وغير موثوق بها، وخاصة عبر الآلاف من الملفات.
نظرة عامة على الحل
الكشف التلقائي عن طريق تشغيل كلمات مفتاحية متعددة أو إعادة البحث على مجموعات من الصور.إبلاغ أو العمل على مباريات الامتثال، والموارد البشرية، أو القضايا المستخدمة في الطب الشرعي الرقمي.
المتطلبات
- Visual Studio 2019 أو أحدث
- .NET 6.0 أو أعلى (أو .Net Framework 4.6.2+)
- Aspose.OCR لـ .NET من NuGet
PM> Install-Package Aspose.OCR
تنفيذ خطوة بخطوة
الخطوة 1: تثبيت وتكوين Aspose.OCR
using Aspose.OCR;
الخطوة 2: حدد الكلمات الرئيسية أو النماذج الخاصة بك
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" }; // SSN, Passport
الخطوة 3: قم بتحريك الصور للكلمات المفتاحية / الخصائص
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found) Console.WriteLine($"Keyword '{keyword}' found in {file}");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found) Console.WriteLine($"Pattern '{pattern}' found in {file}");
}
}
الخطوة 4: تسجيل الدخول والعمل على المباريات
- حفظ النتائج إلى CSV، وإرسال التحذيرات، أو إطلاق تدفق العمل على المباراة.
// Example: Append to log file
File.AppendAllText("search_log.csv", $"{file},{keyword or pattern},found\n");
الخطوة الخامسة: التعامل مع الأخطاء والأداء
- استخدم try/catch للحصول على وظائف قوية
- توازن المجموعات الكبيرة إذا لزم الأمر
try
{
// Searching logic
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
الخطوة 6: نموذج كامل
using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;
class Program
{
static void Main(string[] args)
{
List<string> keywords = new List<string> { "Confidential", "PII", "Invoice", "2025" };
List<string> regexPatterns = new List<string> { @"\d{3}-\d{2}-\d{4}", @"[A-Z]{2}[0-9]{6}" };
try
{
string[] files = Directory.GetFiles("./input", "*.png");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
foreach (string file in files)
{
foreach (string keyword in keywords)
{
bool found = ocr.ImageHasText(file, keyword, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{keyword},found\n");
}
foreach (string pattern in regexPatterns)
{
bool found = ocr.ImageHasText(file, pattern, settings);
if (found)
File.AppendAllText("search_log.csv", $"{file},{pattern},found\n");
}
}
}
catch (Exception ex)
{
File.AppendAllText("search_errors.log", ex.Message + Environment.NewLine);
}
}
}
استخدام الحالات والتطبيقات
مراجعة الامتثال
التحقق تلقائيًا من الأرشيف المسح الضوئي للحصول على الكلمات أو النماذج الحساسة ذات القائمة السوداء.
حقوق الإنسان والقانون والأمن
اكتشاف وجود عبارات سرية أو أسماء الموظفين أو PII في ملفات الطيران أو الأدلة.
تحليل الاتجاه والتردد
حساب وتقرير تردد الكلمات الرئيسية مع مرور الوقت في مجموعات الوثائق الكبيرة.
التحديات والحلول المشتركة
التحدي الأول: الإيجابيات الكاذبة
الحل: تحديد الكلمات الرئيسية و regex؛ مراجعة الحالات الحدودية يدويا.
التحدي الثاني: الحجم الكبير
** الحل:** استخدم المعالجة الموازية ومعالجات الخطأ الصلبة.
التحدي الثالث: اللغات المتعددة
الحل: تعديل إعدادات التعرف وقوائم الكلمات الرئيسية حسب مجموعة اللغة.
اعتبارات الأداء
- يمكن أن تستمر وظائف التردد لفترة طويلة في الأرشيفات الكبيرة - CPU الشاشة والأقراص والمجلدات
- التوازن إذا لزم الأمر للحصول على نطاق عالي
- تسجيل جميع النتائج للمراجعة والامتثال
أفضل الممارسات
- تصحيح وتحديث قائمة الكلمات الرئيسية بانتظام
- الخطأ التلقائي تسجيل الدخول والإبلاغ
- اختبار عينات الأرشيف التمثيلية
- سجلات آمنة ونتائج البحث
سيناريوهات متقدمة
السيناريو 1: البحث وتسليط الضوء على النتائج في الخروج PDF
تصدير الصور مع الكلمات الرئيسية التي تم العثور عليها (معالجة ما بعد التخصيص).
سيناريو 2: الجدول الزمني مراجعات الكلمات المفتاحية بانتظام
العمل التلقائي للقيام ليلاً أو أسبوعياً من أجل الامتثال.
استنتاجات
يتيح Aspose.OCR Image Text Finder for .NET قوية وتلقائيًا للكلمات المفتاحية والبحث عن النماذج - يدعم الامتثال والأمن وتحليل الاتجاهات عبر أرشيف الصور.
See أرشيف الوسم : .NET API Reference للحصول على أمثلة بحث النص المتقدم.