Hur man jämför text genom dokumentversioner med .NET

Hur man jämför text genom dokumentversioner med .NET

Jämförelse av text mellan olika skannade versioner av kontrakt, formulär eller affärshandlingar är avgörande för juridisk granskning och överensstämmelse. Aspose.OCR Image Text Finder för .NET förenklar processen genom att automatiskt extrahera och jämföra text från flera bilder.

Realvärldsproblem

Manuell granskning av versionändringar är långsam, utsatt för mänskliga misstag och inte skalbar – speciellt när man hanterar många dokumentrevisioner eller juridiska kontrakt.

Översikt över lösningen

Automatisera jämförelsen genom att extrahera text från två eller flera skannade bilder, sedan använda diff logik för att lyfta fram och logga textförändringar.

förutsättningar

  • Visual Studio 2019 eller senare
  • .NET 6.0 eller senare (eller .Net Framework 4.6.2+)
  • Aspose.OCR för .NET från NuGet
PM> Install-Package Aspose.OCR

Steg för steg genomförande

Steg 1: Förbereda dokumentversioner

string original = "contract_v1.png";
string revised = "contract_v2.png";

Steg 2: Identifiera och extrahera text från bilder

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Steg 3: Jämför text och höja skillnaderna

Använd en text diff/jämför bibliotek (t.ex. DiffPlex, inbyggd logik) för att hitta skillnader:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Steg 4: Log och export jämförelse resultat

  • Spara ändringar i CSV, loggfil eller mänskligt läsbar diffrapport
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Steg 5: Batch eller automatisk versionskontroll

  • Jämför alla versioner i en mapp, automatiskt efter behov

Steg 6: Fullständigt exempel

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Använd fall och applikationer

Juridisk och överensstämmelse granskning

Snabbt upptäcka förändringar i skannade kontrakt, policyer eller avtal.

Affärsprocessrevision

Upptäck obehöriga eller otillåtna redigeringar i digitala arkiv.

Dokumenthantering Automation

Håll en fullständig granskning av alla ändringar över skannade dokumentversioner.

Gemensamma utmaningar och lösningar

Utmaning 1: Mindre formatering eller OCR-fel

Lösning: Tune inställningar, köra sekundär manuell granskning på flaggade ändringar.

Utmaning 2: Stora dokument

Lösning: Automatisera och parallellisera, logga alla resultat för effektiv revision.

Utmaning 3: falska positiva / negativa

Lösning: Refine diff-algoritmen, validera utgången med verkliga prover.

Prestanda överväganden

  • Diff logik kan vara långsam på stora dokument – övervaka och optimera
  • Lagra alla diff-rapporter säkert för överensstämmelse
  • Använd robusta OCR-inställningar för bästa erkännande

Bästa praxis

  • Använd samma OCR och skanna inställningar i alla versioner
  • Validerar diffs på kritiska/högriskdokument
  • Logga in och backup alla rapporter
  • Automatisk jämförelse av vanlig version för nyckeldokument

Avancerade scenarier

Scenario 1: Uppmärksamma skillnader i visuell utgång

Generera antecknade PDF-filer/bilder som lyfter fram upptäckta textförändringar för juridiska lag.

Scenario 2: Automatisk anmälan av kritiska förändringar

Skicka ett meddelande/e-postmeddelande om en viktig juridisk klausul läggs till/avlägsnas.

slutsatser

Aspose.OCR Image Text Finder för .NET möjliggör automatiserad, skalbar och granskbar dokumentversion jämförelse – vilket gör det möjligt för juridiska, affärsmässiga och efterlevnadsteam att upptäcka kritiska förändringar i skannade filer.

För mer avancerade jämförande arbetsflöden, se Aspose.OCR för .NET API Referens .

 Svenska