Як шукати і порівнювати текст у зображеннях з Aspose.OCR

Як шукати і порівнювати текст у зображеннях з Aspose.OCR

Пошук або порівняння тексту всередині зображень є необхідним для дотримання, цифрових архівів та автоматизованої класифікації. Aspose.OCR Image Text Finder для .NET дозволяє точно ідентифікувати, шукати і порівнювати текст зіображення – через ряд випадків використання від виявлення PII до юридичної перевірки.

Реальні проблеми світу

Бізнес часто потребує пошуку чутливого контенту, перевірки підписів або порівняння тексту між різними версіями файлів зображення.

Огляд рішення

За допомогою Aspose.OCR ви можете шукати конкретний текст або шаблони (використовуючи смуги або регекс) в зображеннях, і порівнювати текстовий вміст двох знімків, щоб помітити відмінності.

Передумови

Вам знадобиться:

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
  • Основні навички C#
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Завантажити та встановити Aspose.OCR

Додайте пакет і необхідні номінаційні простори:

using Aspose.OCR;

Крок 2: Підготуйте файли зображення

Налаштуйте зображення, які ви хочете шукати або порівнювати.

string img1 = "document1.png";
string img2 = "document2.jpg";

Крок 3: Налаштування варіантів пошуку та порівняння

Налаштуйте налаштування для пошуку тексту (тринг або регекс) та порівняння.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English; // Adjust as needed

Крок 4: Пошук тексту в зображенні

Використовуйте ImageHasText Метод швидкого, гнучкого пошуку тексту (підтримка смуг і регекса):

AsposeOcr ocr = new AsposeOcr();
bool isFound = ocr.ImageHasText(img1, "Confidential", settings); // String search
Console.WriteLine($"Text found: {isFound}");

// Regex search example:
bool regexFound = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // e.g., US SSN pattern
Console.WriteLine($"Regex found: {regexFound}");

Крок 5: Порівняйте текст двох зображень

Користувати CompareImageTexts Визначити різницю в текстильному контенті:

int similarity = ocr.CompareImageTexts(img1, img2, settings, true); // true = case-insensitive
Console.WriteLine($"Image text similarity: {similarity}%");

Крок 6: Використання помилок

Знайти і впоратися з помилками для міцності виробництва:

try
{
    AsposeOcr ocr = new AsposeOcr();
    bool found = ocr.ImageHasText(img1, "PII", settings);
    int sim = ocr.CompareImageTexts(img1, img2, settings, false);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Крок 7: Оптимізація для масового пошуку або порівняння

  • Процесувати зображення в комплектах за допомогою асинхронних або паралельних шаблонів
  • Препроцесовані зображення (рощування, очищення) для більшої точності
  • Fine-tune regex для передових сценаріїв
// Example: Search for a pattern in all images in a folder
foreach (string file in Directory.GetFiles("./archive", "*.png"))
{
    bool found = ocr.ImageHasText(file, "Confidential", settings);
    if (found) { Console.WriteLine($"Found in: {file}"); }
}

Крок 8: Повний приклад

using Aspose.OCR;
using System;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            string img1 = "contract1.png";
            string img2 = "contract2.png";

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            // Search for specific text
            bool isFound = ocr.ImageHasText(img1, "NDA", settings);
            Console.WriteLine($"Text found: {isFound}");

            // Compare two images
            int similarity = ocr.CompareImageTexts(img1, img2, settings, true);
            Console.WriteLine($"Image text similarity: {similarity}%");
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Використання випадків та додатків

Співвідношення та PII-детекція

Пошук конфіденційних даних або шаблонів (наприклад, ідентифікаторів, SSN) в цифрових архівах зображення.

Юридичний і контрактний огляд

Порівняйте угоди або документи, засновані на зображенні, для текстуальних відмінностей після підписання або редагування.

Менеджмент цифрових активів

Дозволяється автоматичне ознайомлення або пошук у великих складах зображень для автоматизації бізнес-процесів.

Спільні виклики та рішення

Виклик 1: Зображення з різноманітними стилями тексту

Рішення: Використовуйте випадково-нечутливий і регексний збіг; випробуйте на різних шрифтах / фонах.

Виклик 2: Великий батальйон пошуку

Рішення: Використовуйте паралельні або асинхронні робочі потоки, а також попередні зображення, коли це можливо.

Виклик 3: Комплексні шаблони або редагувані тексти

Рішення: Рефініруйте регекс і випробуйте на зображеннях зразка; налаштуйте звуки для шуму або редагуваних знімків.

Виконання розглядів

  • Процес обробки для швидкості на великих архівах
  • Використовуйте високоякісні джерельні зображення для кращої точності
  • Використовуйте пошукові шаблони, щоб мінімізувати фальшиві позитивні

Найкращі практики

  • Перевірте всі пошукові та порівняльні шаблони на зразках перш за все
  • Безпечно обробляти та записувати чутливу інформацію або результати пошуку
  • Регулярно оновлюється Aspose.OCR для поліпшення функцій та точності

Розширені сценарії

Сценарій 1: Advanced Regex для редагування

bool found = ocr.ImageHasText(img1, @"(Account|Card)\s*#:?\s*\d{4,}", settings);

Сценарій 2: багатомовний пошук

settings.Language = Language.French;
bool isFound = ocr.ImageHasText(img1, "Confidentiel", settings);

Заключення

Aspose.OCR Image Text Finder для .NET дозволяє ефективно шукати, виявляти і порівнювати текст на основі зображення – через архіви, юридичні та відповідні робочі потоки.

Знайдіть більше прикладів у Aspose.OCR для .NET API Референт .

 Українська