Come confrontare le versioni di testo attraverso i documenti utilizzando .NET

Come confrontare le versioni di testo attraverso i documenti utilizzando .NET

Il confronto di testo tra diverse versioni scansionate di contratti, moduli o documenti aziendali è fondamentale per la revisione legale e il rispetto. Aspose.OCR Image Text Finder per .NET semplifica il processo automaticamente estrarendo e confrontando il testo da più immagini.

Il problema del mondo reale

La revisione manuale dei cambiamenti di versione è lenta, pronta ad errori umani e non scalabile – specialmente quando si trattano di molte revisioni di documenti o contratti legali.

Soluzione Overview

Automatizzare la confrontazione extractando testo da due o più immagini scansionate, quindi utilizzando la logica diff per evidenziare e registrare i cambiamenti di testo.

Prerequisiti

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Preparare le versioni dei documenti

string original = "contract_v1.png";
string revised = "contract_v2.png";

Passo 2: Riconoscere e estrarre il testo dalle immagini

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Passo 3: Confronta il testo e evidenzia le differenze

Utilizzare una libreria di testo diff/compare (ad esempio, DiffPlex, logica integrata) per individuare le differenze:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Passo 4: Risultati di log e esportazione confronto

  • Salva i cambiamenti a CSV, file di log o relazioni diff leggibili per l’uomo
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Passo 5: Batch o Controllo di versione automatica

  • Confronta tutte le versioni in una cartella, automatizzate come necessario

Passo 6 - Esempio completo

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Utilizzare casi e applicazioni

revisione legale e di conformità

Scopri rapidamente i cambiamenti nei contratti, nelle politiche o negli accordi scansionati.

Audit del processo aziendale

Identificare edizioni non autorizzate o non approvate negli archivi digitali.

La gestione automatica dei documenti

Mantenere una traccia di audit completa di tutti i cambiamenti attraverso le versioni dei documenti scansionati.

Sfide e soluzioni comuni

sfida 1: minori errori di formattamento o OCR

Soluzione: Tune le impostazioni, eseguire una revisione manuale secondaria sui cambiamenti segnalati.

Sito ufficiale: Big Document Set

Soluzione: Automatizzare e parallelizzare, registrare tutti i risultati per un’audit efficiente.

3 – False Positive / Negative

Soluzione: Rifina l’algoritmo diff, valida la produzione con campioni del mondo reale.

Considerazioni di prestazioni

  • La logica Diff può essere lenta su grandi documenti – monitorare e ottimizzare
  • Mantenere tutti i rapporti diff in modo sicuro per la conformità
  • Utilizzare solide impostazioni OCR per il miglior riconoscimento

Migliori pratiche

  • Utilizzare lo stesso OCR e le impostazioni di scansione in tutte le versioni
  • Validare i difsi sui documenti critici / ad alto rischio
  • Registrazione e backup tutti i rapporti
  • Confronto automatico delle versioni regolari per i documenti chiave

Scenari avanzati

Scenario 1: evidenziare le differenze nella visualizzazione

Generare PDF/immagini annotate che evidenziano i cambiamenti di testo rilevati per i team legali.

Scenario 2: Avviso automatico dei cambiamenti critici

Invia un avviso/e-mail se viene aggiunta/rimuovuta una clausola legale importante.

conclusione

Aspose.OCR Image Text Finder per .NET consente la comparazione automatica, scalabile e audibile delle versioni dei documenti, consentendo ai team legali, aziendali e di conformità di rilevare cambiamenti critici nei file scansionati.

Per un flusso di lavoro comparativo più avanzato, vedere Aspose.OCR per .NET API Reference .

 Italiano