Comment comparer le texte à travers les versions de documents en utilisant .NET
Comparer le texte entre différentes versions scannées de contrats, de formulaires ou de documents d’affaires est essentiel pour la révision légale et le respect. Aspose.OCR Image Text Finder pour .NET simplifie le processus en extraisant automatiquement et en comparant du texte à partir de plusieurs images.
Problème du monde réel
La révision manuelle des modifications de la version est lente, susceptible d’erreur humaine et non scalable – surtout lorsqu’il s’agit de nombreuses révisions de documents ou de contrats juridiques.
Vue de la solution
Automatisez la comparaison en extraisant le texte de deux ou plusieurs images scannées, puis en utilisant la logique diff pour souligner et enregistrer les changements textuels.
Principaux
- Visual Studio 2019 ou ultérieur
- .NET 6.0 ou ultérieur (ou .Net Framework 4.6.2+)
- Aspose.OCR pour .NET de NuGet
PM> Install-Package Aspose.OCR
La mise en œuvre étape par étape
Étape 1 : Préparer les versions de documents
string original = "contract_v1.png";
string revised = "contract_v2.png";
Étape 2 : Reconnaître et extraire le texte des images
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Étape 3 : Comparer le texte et souligner les différences
Utilisez une bibliothèque de texte diff/compare (par exemple, DiffPlex, logique intégrée) pour afficher les différences :
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Étape 4 : Résultats de l’enregistrement et des exportations
- Enregistrer les changements dans le fichier CSV, log ou le rapport diff lisible par l’homme
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Étape 5 : Contrôle de version Batch ou automatique
- Comparer toutes les versions dans un dossier, automatiquement comme nécessaire
Étape 6 : Exemple complet
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Utiliser les cas et les applications
Révision juridique et de conformité
Détecter rapidement les changements dans les contrats, politiques ou accords scanés.
Audit du processus d’affaires
Détecter des éditions non autorisées ou non approuvées dans les archives numériques.
Automatisation de gestion de documents
Maintenir une trace d’audit complète de toutes les modifications à travers les versions de documents scannés.
Défis communs et solutions
Défi 1 : Minor Formatting ou erreurs OCR
Solution: Tonne les paramètres, exécute une revue manuelle secondaire sur les modifications marquées.
Défi 2 : Les grands dossiers
Solution: Automatiser et paralléliser, enregistrer tous les résultats pour un audit efficace.
Défi 3 : Faux positifs / négatifs
Solution: Réfine l’algorithme diff, valide la sortie avec des échantillons du monde réel.
Considérations de performance
- La logique Diff peut être lente sur les grands documents — moniteur et optimisation
- Garder tous les rapports diff en toute sécurité pour la conformité
- Utilisez des paramètres OCR robustes pour la meilleure reconnaissance
Migliori pratiche
- Utilisez les mêmes paramètres OCR et scan sur toutes les versions
- Valider les diffs sur les documents critiques/high-risk
- Inscrivez-vous et sauvegardez tous les rapports
- Comparaison automatique de version régulière pour les documents clés
Scénarios avancés
Scénario 1: Afficher les différences dans les résultats visuels
Gérer des PDF/images annotés qui soulignent les changements de texte détectés pour les équipes juridiques.
Scénario 2 : Notification automatique des changements critiques
Envoyer un alerte/email si une clause légale importante est ajoutée/retraitée.
Conclusion
Aspose.OCR Image Text Finder pour .NET permet une comparaison automatique, scalable et audible des versions de documents – permettant aux équipes juridiques, commerciales et de conformité de détecter des changements critiques dans les fichiers scannés.
Pour les flux de travail de comparaison plus avancés, voir Aspose.OCR pour la référence API .NET .