Hvordan man sammenligner tekst gennem dokumentversioner ved hjælp af .NET

Hvordan man sammenligner tekst gennem dokumentversioner ved hjælp af .NET

Sammenligning af tekst mellem forskellige scannede versioner af kontrakter, formularer eller forretningsdokumenter er afgørende for juridisk gennemgang og overensstemmelse. Aspose.OCR Image Text Finder for .NET forenkler processen ved automatisk at udveksle og sammenligne tekst fra flere billeder.

Det virkelige problem

Manuel anmeldelse af versionændringer er langsom, tilbøjelige til menneskelige fejl, og ikke skalerbar – især når man håndterer mange dokumentrevisioner eller juridiske kontrakter.

Oversigt over løsning

Automatisere sammenligningen ved at udveksle tekst fra to eller flere scannede billeder, og derefter bruge diff logik til at fremhæve og logge tekstændringer.

Forudsætninger

  • Visual Studio 2019 eller senere
  • .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
  • Aspose.OCR til .NET fra NuGet
PM> Install-Package Aspose.OCR

Step-by-Step gennemførelse

Trin 1: Forbered dokumentversioner

string original = "contract_v1.png";
string revised = "contract_v2.png";

Trin 2: Fjern og genkender tekst fra billeder

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Trin 3: Sammenlign tekst og fremhæve forskelle

Brug en tekst diff/compare bibliotek (f.eks. DiffPlex, indbygget logik) til at finde forskelle:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Trin 4: Log og eksport sammenligningsresultater

  • Spare ændringer til CSV, logfil eller menneskelig læsbar diff-rapport
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Trin 5: Batch eller automatisk versionskontrol

  • Sammenlign alle versioner i en mappe, automatisk som nødvendigt

Næste skridt: Et komplet eksempel

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Brug af tilfælde og applikationer

Retlige og overensstemmelsesundersøgelser

Snart opdage ændringer i scannede kontrakter, politikker eller aftaler.

Virksomhedsprocesser Audit

At opdage uautoriserede eller u godkendte redigeringer i digitale arkiver.

Dokumentstyring Automation

Hold en komplet revisionspur af alle ændringer i scannede dokumentversioner.

Fælles udfordringer og løsninger

Udfordring 1: Mindre formatering eller OCR fejl

Løsning: Tune indstillinger, køre sekundær manual gennemgang af flaggede ændringer.

Udfordring 2: Store dokumenter

Løsning: Automatiseret og paralleliseret, log alle resultater for effektiv revision.

Udfordring 3: Falske Positive og Negative

Løsning: Refine diff-algoritmen, validere produktionen med virkelige prøver.

Performance overvejelser

  • Diff logik kan være langsom på store dokumenter – overvågning og optimering
  • Lagre alle diff-rapporter sikkert for overensstemmelse
  • Brug robuste OCR-indstillinger for den bedste genkendelse

Bedste praksis

  • Brug den samme OCR og skanne indstillinger i alle versioner
  • Validerer diffs på kritiske/højrisiko-dokumenter
  • Log og backup alle rapporter
  • Automatisk regelmæssig version sammenligning for nøgledokumenter

Avancerede scenarier

Scenario 1: Understrege forskelle i visuel udgang

Generere noterede PDF’er/billeder, der fremhæver konstaterede tekstændringer for juridiske teams.

Scenario 2: Automatisk meddelelse af kritiske ændringer

Send en meddelelse/e-mail, hvis en vigtig lovbestemmelse er tilføjet / fjernet.

Konklusion

Aspose.OCR Image Text Finder for .NET muliggør automatisk, skalerbar og auditerbar dokumentversion sammenligning – der giver juridiske, forretnings- og overholdelsesgrupper mulighed for at opdage kritiske ændringer i scannede filer.

For mere avanceret sammenligning af arbejdsprocesser, se Aspose.OCR til .NET API Reference .

 Dansk