Comment rechercher et comparer le texte dans les images avec Aspose.OCR
La recherche ou la comparaison du texte à l’intérieur des images est essentielle pour la conformité, les archives numériques et la classification automatisée. Aspose.OCR Image Text Finder pour .NET vous permet d’identifier, de rechercher et de comparer le texte image avec précision – à travers une gamme de cas d’utilisation de la détection PII à la révision juridique.
Problème du monde réel
Les entreprises ont souvent besoin de rechercher des contenus sensibles, de vérifier les signatures ou de comparer le texte entre différentes versions de fichiers d’image. Les vérifications manuelles sont lentes et incroyables, en particulier pour les grands archives numériques ou les ensembles de documents.
Vue de la solution
Avec Aspose.OCR, vous pouvez rechercher des textes ou des modèles spécifiques (en utilisant des lignes ou du regex) dans les images, et comparer le contenu textuel de deux images pour afficher les différences.
Principaux
Vous aurez besoin :
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
- Les compétences C#
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Installer et configurer Aspose.OCR
Ajouter le paquet et les espaces de nom requis :
using Aspose.OCR;
Étape 2 : Préparez vos fichiers d’image
Configurez les images que vous souhaitez rechercher ou comparer.
string img1 = "document1.png";
string img2 = "document2.jpg";
Étape 3 : Configurer les options de recherche et de comparaison
Configurez les paramètres pour la recherche de texte (string ou regex) et la comparaison.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English; // Adjust as needed
Étape 4 : Rechercher le texte dans une image
Utilisez le ImageHasText
méthode de recherche de texte rapide et flexible (supportant les lignes et le regex):
AsposeOcr ocr = new AsposeOcr();
bool isFound = ocr.ImageHasText(img1, "Confidential", settings); // String search
Console.WriteLine($"Text found: {isFound}");
// Regex search example:
bool regexFound = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // e.g., US SSN pattern
Console.WriteLine($"Regex found: {regexFound}");
Étape 5 : Comparer le texte de deux images
Utiliser CompareImageTexts
Découvrez les différences dans le contenu texte :
int similarity = ocr.CompareImageTexts(img1, img2, settings, true); // true = case-insensitive
Console.WriteLine($"Image text similarity: {similarity}%");
Étape 6 : Ajoutez le traitement des erreurs
Atteindre et gérer les erreurs pour la robustesse de la production :
try
{
AsposeOcr ocr = new AsposeOcr();
bool found = ocr.ImageHasText(img1, "PII", settings);
int sim = ocr.CompareImageTexts(img1, img2, settings, false);
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Étape 7 : Optimiser pour la recherche ou la comparaison en masse
- Traitement d’images dans des lots en utilisant des schémas async ou parallèles
- Images de pré-procédure (crop, nettoyage) pour une plus grande précision
- Fine-tune regex pour les scénarios avancés
// Example: Search for a pattern in all images in a folder
foreach (string file in Directory.GetFiles("./archive", "*.png"))
{
bool found = ocr.ImageHasText(file, "Confidential", settings);
if (found) { Console.WriteLine($"Found in: {file}"); }
}
Étape 8 : Exemple complet
using Aspose.OCR;
using System;
class Program
{
static void Main(string[] args)
{
try
{
string img1 = "contract1.png";
string img2 = "contract2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
// Search for specific text
bool isFound = ocr.ImageHasText(img1, "NDA", settings);
Console.WriteLine($"Text found: {isFound}");
// Compare two images
int similarity = ocr.CompareImageTexts(img1, img2, settings, true);
Console.WriteLine($"Image text similarity: {similarity}%");
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Utiliser les cas et les applications
Compliance et détection PII
Recherchez des données confidentielles ou des modèles (tels que les ID, SSN) dans les archives d’image numérique.
Revue juridique et contractuelle
Comparaison des contrats ou documents d’image pour les différences textuelles après la signature ou l’édition.
Gestion des actifs numériques
Permettre l’étiquetage automatique ou la recherche dans les grands stockages d’images pour l’automatisation des processus commerciaux.
Défis communs et solutions
Défi 1 : Des images avec des styles de texte variés
Solution: Utilisez des matchs cas-insensibles et regex; testez sur divers fonts / fonds.
Défi 2 : Grand Batch Recherche
Solution: Utilisez des flux de travail parallèles ou non synchronisés et des images pré-processifs lorsque cela est possible.
Défi 3 : Modèles complexes ou texte édité
Solution: Réfine et teste les images d’échantillons; tune les paramètres pour les photos bruyantes ou rédigées.
Considérations de performance
- Le processus de batch pour la vitesse sur les grands archives
- Utilisez des images source de haute qualité pour la meilleure précision
- Tune les modèles de recherche pour minimiser les faux positifs
Migliori pratiche
- Testez tous les modèles de recherche et de comparaison sur les ensembles d’abord
- Traiter en toute sécurité et enregistrer des informations sensibles ou des résultats de recherche
- Actualiser régulièrement Aspose.OCR pour des améliorations de fonctionnalité et d’exactitude
Scénarios avancés
Scénario 1: Regex avancé pour la rédaction
bool found = ocr.ImageHasText(img1, @"(Account|Card)\s*#:?\s*\d{4,}", settings);
Scénario 2 : Recherche multilingue
settings.Language = Language.French;
bool isFound = ocr.ImageHasText(img1, "Confidentiel", settings);
Conclusion
Aspose.OCR Image Text Finder pour .NET vous permet de rechercher, de détecter et de comparer le texte basé sur l’image efficacement – à travers les flux de travail d’archives, juridiques et conformités.
Trouvez plus d’exemples dans le Aspose.OCR pour la référence API .NET .