Comment rechercher et comparer le texte dans les images avec Aspose.OCR

Comment rechercher et comparer le texte dans les images avec Aspose.OCR

La recherche ou la comparaison du texte à l’intérieur des images est essentielle pour la conformité, les archives numériques et la classification automatisée. Aspose.OCR Image Text Finder pour .NET vous permet d’identifier, de rechercher et de comparer le texte image avec précision – à travers une gamme de cas d’utilisation de la détection PII à la révision juridique.

Problème du monde réel

Les entreprises ont souvent besoin de rechercher des contenus sensibles, de vérifier les signatures ou de comparer le texte entre différentes versions de fichiers d’image. Les vérifications manuelles sont lentes et incroyables, en particulier pour les grands archives numériques ou les ensembles de documents.

Vue de la solution

Avec Aspose.OCR, vous pouvez rechercher des textes ou des modèles spécifiques (en utilisant des lignes ou du regex) dans les images, et comparer le contenu textuel de deux images pour afficher les différences.

Principaux

Vous aurez besoin :

  • Visual Studio 2019 ou ultérieur
  • .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
  • Aspose.OCR pour .NET de NuGet
  • Les compétences C#
PM> Install-Package Aspose.OCR

La mise en œuvre étape par étape

Étape 1 : Installer et configurer Aspose.OCR

Ajouter le paquet et les espaces de nom requis :

using Aspose.OCR;

Étape 2 : Préparez vos fichiers d’image

Configurez les images que vous souhaitez rechercher ou comparer.

string img1 = "document1.png";
string img2 = "document2.jpg";

Étape 3 : Configurer les options de recherche et de comparaison

Configurez les paramètres pour la recherche de texte (string ou regex) et la comparaison.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English; // Adjust as needed

Étape 4 : Rechercher le texte dans une image

Utilisez le ImageHasText méthode de recherche de texte rapide et flexible (supportant les lignes et le regex):

AsposeOcr ocr = new AsposeOcr();
bool isFound = ocr.ImageHasText(img1, "Confidential", settings); // String search
Console.WriteLine($"Text found: {isFound}");

// Regex search example:
bool regexFound = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // e.g., US SSN pattern
Console.WriteLine($"Regex found: {regexFound}");

Étape 5 : Comparer le texte de deux images

Utiliser CompareImageTexts Découvrez les différences dans le contenu texte :

int similarity = ocr.CompareImageTexts(img1, img2, settings, true); // true = case-insensitive
Console.WriteLine($"Image text similarity: {similarity}%");

Étape 6 : Ajoutez le traitement des erreurs

Atteindre et gérer les erreurs pour la robustesse de la production :

try
{
    AsposeOcr ocr = new AsposeOcr();
    bool found = ocr.ImageHasText(img1, "PII", settings);
    int sim = ocr.CompareImageTexts(img1, img2, settings, false);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Étape 7 : Optimiser pour la recherche ou la comparaison en masse

  • Traitement d’images dans des lots en utilisant des schémas async ou parallèles
  • Images de pré-procédure (crop, nettoyage) pour une plus grande précision
  • Fine-tune regex pour les scénarios avancés
// Example: Search for a pattern in all images in a folder
foreach (string file in Directory.GetFiles("./archive", "*.png"))
{
    bool found = ocr.ImageHasText(file, "Confidential", settings);
    if (found) { Console.WriteLine($"Found in: {file}"); }
}

Étape 8 : Exemple complet

using Aspose.OCR;
using System;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            string img1 = "contract1.png";
            string img2 = "contract2.png";

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            // Search for specific text
            bool isFound = ocr.ImageHasText(img1, "NDA", settings);
            Console.WriteLine($"Text found: {isFound}");

            // Compare two images
            int similarity = ocr.CompareImageTexts(img1, img2, settings, true);
            Console.WriteLine($"Image text similarity: {similarity}%");
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utiliser les cas et les applications

Compliance et détection PII

Recherchez des données confidentielles ou des modèles (tels que les ID, SSN) dans les archives d’image numérique.

Revue juridique et contractuelle

Comparaison des contrats ou documents d’image pour les différences textuelles après la signature ou l’édition.

Gestion des actifs numériques

Permettre l’étiquetage automatique ou la recherche dans les grands stockages d’images pour l’automatisation des processus commerciaux.

Défis communs et solutions

Défi 1 : Des images avec des styles de texte variés

Solution: Utilisez des matchs cas-insensibles et regex; testez sur divers fonts / fonds.

Défi 2 : Grand Batch Recherche

Solution: Utilisez des flux de travail parallèles ou non synchronisés et des images pré-processifs lorsque cela est possible.

Défi 3 : Modèles complexes ou texte édité

Solution: Réfine et teste les images d’échantillons; tune les paramètres pour les photos bruyantes ou rédigées.

Considérations de performance

  • Le processus de batch pour la vitesse sur les grands archives
  • Utilisez des images source de haute qualité pour la meilleure précision
  • Tune les modèles de recherche pour minimiser les faux positifs

Migliori pratiche

  • Testez tous les modèles de recherche et de comparaison sur les ensembles d’abord
  • Traiter en toute sécurité et enregistrer des informations sensibles ou des résultats de recherche
  • Actualiser régulièrement Aspose.OCR pour des améliorations de fonctionnalité et d’exactitude

Scénarios avancés

Scénario 1: Regex avancé pour la rédaction

bool found = ocr.ImageHasText(img1, @"(Account|Card)\s*#:?\s*\d{4,}", settings);

Scénario 2 : Recherche multilingue

settings.Language = Language.French;
bool isFound = ocr.ImageHasText(img1, "Confidentiel", settings);

Conclusion

Aspose.OCR Image Text Finder pour .NET vous permet de rechercher, de détecter et de comparer le texte basé sur l’image efficacement – à travers les flux de travail d’archives, juridiques et conformités.

Trouvez plus d’exemples dans le Aspose.OCR pour la référence API .NET .

 Français