Wie man Text über Dokumentversionen mit .NET vergleicht

Wie man Text über Dokumentversionen mit .NET vergleicht

Die Vergleiche von Text zwischen verschiedenen geschkanten Versionen von Verträgen, Formen oder Geschäftsdokumenten ist entscheidend für die rechtliche Überprüfung und Einhaltung. ASPOSE.OCR Image Text Finder für .NET vereinfacht den Prozess durch die automatische Extraktion und Vergleich des Textes aus mehreren Bildern.

Real-Weltproblem

Die manuelle Überprüfung der Versionsänderungen ist langsam, anfällig für menschliche Fehler und nicht skalierbar – vor allem bei der Bearbeitung vieler Dokumentrevisionen oder juristischer Verträge.

Überblick der Lösung

Automatisieren Sie die Vergleiche, indem Sie Text aus zwei oder mehr scannten Bildern extrahieren und dann diff-Logik verwenden, um Textänderungen hervorzuheben und zu registrieren.

Voraussetzung

  • Visual Studio 2019 oder später
  • .NET 6.0 oder höher (oder .Net Framework 4.6.2+)
  • Aspose.OCR für .NET von NuGet
PM> Install-Package Aspose.OCR

Schritt für Schritt Implementierung

Schritt 1: Dokumentversionen vorbereiten

string original = "contract_v1.png";
string revised = "contract_v2.png";

Schritt 2: Erkennen und Text aus Bildern extrahieren

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Schritt 3: Vergleiche Text und Highlight Differences

Verwenden Sie eine Textdiff/Vergleichbibliothek (z. B. DiffPlex, integrierte Logik), um Unterschiede zu finden:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Schritt 4: Log und Export Vergleich Ergebnisse

  • Speichern Sie Änderungen in CSV, Log-Datei oder menschlich Lesbares diff-Bericht
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Schritt 5: Batch oder automatische Versionskontrolle

  • Vergleichen Sie alle Versionen in einem Ordner, automatisieren Sie nach Bedarf

Schritt 6: Vollständiges Beispiel

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Verwendung von Fällen und Anwendungen

Rechts- und Einhaltungsaufprüfung

Schnell erkennen Sie Änderungen in geschkanten Verträgen, Richtlinien oder Vereinbarungen.

Business-Prozess Audit

Entdecken Sie unbefugte oder nicht genehmigte Edite in digitalen Archiven.

Dokumentenmanagement Automatisierung

Halten Sie eine vollständige Prüfungspur aller Änderungen über scannen Dokumente-Versionen.

Gemeinsame Herausforderungen und Lösungen

Herausforderung 1: Minor Formatting oder OCR-Fehler

Lösung: Tun Sie die Einstellungen, führen Sie eine sekundäre manuelle Überprüfung der geführten Änderungen durch.

Herausforderung 2: Große Dokumenten

Lösung: Automatisieren und parallelisieren, logieren Sie alle Ergebnisse für eine effiziente Prüfung.

Herausforderung 3: Falsche Positive / Negative

Lösung: Refine diff-Algorithmus, validieren Sie die Ausgabe mit echten Proben.

Performance Beachtung

  • Diff-Logik kann auf großen Dokumenten langsam sein – Monitor und Optimierung
  • Speichern Sie alle diff Berichte sicher für die Einhaltung
  • Verwenden Sie robuste OCR-Einstellungen für die beste Erkennung

Beste Praktiken

  • Verwenden Sie die gleichen OCR und Scan-Einstellungen in allen Versionen
  • Validieren von Diffen auf kritischen/high-risk-Dokumenten
  • Anmeldung und Backup aller Berichte
  • Automatische regelmäßige Versionvergleich für Schlüsseldokumente

Fortgeschrittene Szenarien

Szenario 1: Unterschiede im visuellen Ausgang hervorheben

Erzeugen Sie angezeigte PDF-Dateien / Bilder, die festgestellte Textänderungen für juristische Teams hervorheben.

Szenario 2: Automatische Notifizierung von kritischen Veränderungen

Senden Sie eine Warnung / E-Mail, wenn eine wichtige gesetzliche Bestimmung hinzugefügt / entfernt wird.

Schlussfolgerungen

ASPOSE.OCR Image Text Finder für .NET ermöglicht automatisierte, skalierbare und auditive Dokumentversionvergleich – die rechtlichen, geschäftlichen und compliance-Teams erlaubt, kritische Veränderungen in scannen Dateien zu erkennen.

Für fortschrittliche Vergleiche von Workflows, siehe Aspose.OCR für .NET API Referenz .

 Deutsch