Com comparar versions de text a través de documents amb .NET

Com comparar versions de text a través de documents amb .NET

La comparació de text entre diferents versions escanejades de contractes, formularis o documents comercials és crucial per a la revisió legal i el compliment. Aspose.OCR Image Text Finder per .NET simplifica el procés mitjançant l’extracció automàtica i la comparativa del text de múltiples imatges.

El problema del món real

La revisió manual dels canvis de versió és lenta, propera a errors humans i no escalable, especialment quan es realitzen moltes revisions de documents o contractes legals.

Revisió de solucions

Automatitzar la comparació extretant text de dues o més imatges escanades, després utilitzant lògica dif per destacar i registrar els canvis textuals.

Prerequisits

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Preparació de les versions del document

string original = "contract_v1.png";
string revised = "contract_v2.png";

Pas 2: Reconèixer i extreure text de les imatges

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Pas 3: Compareix text i destaca les diferències

Utilitzeu una biblioteca de text diff/compare (per exemple, DiffPlex, lògica integrada) per detectar les diferències:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Pas 4: Resultats de la comparació d’entrada i exportació

  • Salva els canvis a CSV, arxiu de log o informe dif llegible per a l’home
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Pas 5: Batx o Control de versió automàtica

  • Compareix totes les versions en una carpeta, automàticament com sigui necessari

Pas 6: Exemple complet

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Utilitzar casos i aplicacions

Revisió legal i de conformitat

Detecta ràpidament els canvis en els contractes, polítiques o acords escanejats.

Auditoria de processos empresarials

Detectar editats no autoritzades o no aprovades en els arxius digitals.

Automatització de la gestió de documents

Mantenir un rastre d’auditoria complet de tots els canvis a través de les versions de documents escanejats.

Els reptes i les solucions comunes

Títol 1: Menors errors de formatació o OCR

Solució: Tuneu les configuracions, realitzeu una revisió manual secundària sobre els canvis flagrats.

Títol 2: Gran documentació

Solució: Automàticament i paral·lelitzant, enregistrant tots els resultats per a una auditoria eficient.

Títol 3: Positius falsos i negatius

Solució: Refineix l’algoritme diff, valida la producció amb mostres del món real.

Consideracions de rendiment

  • La lògica diferent pot ser lenta en els grans documents —monitor i optimitzar
  • Mantenir tots els informes dif de manera segura per a la conformitat
  • Utilitza configuracions OCR robustes per al millor reconeixement

Les millors pràctiques

  • Utilitzeu les mateixes configuracions d’OCR i escaneu en totes les versions
  • Validació de difs sobre documents crítics / d’alt risc
  • Enllaç i backup de tots els informes
  • Comparació automàtica de la versió regular per a documents clau

Escenaris avançats

Escenari 1: Destaca les diferències en el rendiment visual

Generar PDFs/imatges anotats que destaquen els canvis de text detectats per a equips legals.

Escenari 2: Notificació automàtica de canvis crítics

Envia un avís/e-mail si s’afegeix/s’elimina una clau legal important.

Conclusió

Aspose.OCR Image Text Finder per a .NET permet una comparació automàtica, escalable i audible de la versió del document, que permet als equips legals, empresarials i de conformitat detectar canvis crítics en els arxius escanats.

Per a més avançats fluxos de treball de comparació, veure Aspose.OCR per a .NET API Referència .

 Català