Kako usporediti tekst kroz verzije dokumenata pomoću .NET-a

Kako usporediti tekst kroz verzije dokumenata pomoću .NET-a

Usporedba teksta između različitih skeniranih verzija ugovora, obrasca ili poslovnih dokumenata ključna je za pravnu reviziju i usklađenost.Aspose.OCR Image Text Finder za .NET usporava proces automatski uklanjanjem i uspoređivanjem tekstova iz više slika.

Real-svjetski problem

Ručni pregled promjena verzije je usporen, priličan na ljudske pogreške, a ne skalabilan – osobito kada se bave mnogim revizijama dokumenata ili pravnim ugovorima.

Pregled rješenja

Automatizirajte usporedbu uklanjanjem teksta iz dva ili više skeniranih slika, a zatim upotrijebite dif logiku kako biste istakli i prijavili tekstovne promjene.

Preduzeća

  • Visual Studio 2019 ili kasnije
  • .NET 6.0 ili noviji (ili .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
PM> Install-Package Aspose.OCR

Korak po korak provedba

Korak 1: Pripremite verzije dokumenata

string original = "contract_v1.png";
string revised = "contract_v2.png";

Korak 2: Prepoznavanje i uklanjanje teksta iz slika

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Korak 3: Usporedite tekst i istaknite razlike

Koristite knjižnicu dif/sličiti tekst (npr. DiffPlex, ugrađena logika) kako biste otkrili razlike:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Korak 4: Usklađivanje logova i izvoza

  • Sačuvajte promjene u CSV-u, log datoteci ili ljudski čitljivom izvješću
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Korak 5: Batch ili Automatizirana kontrola verzije

  • Usporedite sve verzije u mapi, automatizirajte prema potrebi

Četvrti korak: potpuni primjer

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Korištenje slučajeva i aplikacija

Revizija pravne i usklađenosti

Brzo otkriti promjene u skeniranim ugovorima, politikama ili sporazumima.

Revizija poslovnog procesa

Otkrijte neovlašteno ili neprihvatljivo uređivanje u digitalnim arhivima.

Automatizacija upravljanja dokumentima

Održavanje potpune revizijske staze svih promjena kroz skenirane verzije dokumenata.

Zajednički izazovi i rješenja

Izazov 1: Manje formatacije ili OCR pogreške

Rješenje: Tune postavke, provodite sekundarnu priručnu reviziju o promjenama koje su zabilježene.

Izazov 2: Veličanstveni dokumenti

Rješenje: Automatizirajte i usporedite, prijavite sve rezultate za učinkovitu reviziju.

Izazov 3: lažne pozitivne i negativne

Rješenje: Razvijanje dif algoritma, validirati proizvodnju s stvarnim svjetskim uzorcima.

Razmatranje učinkovitosti

  • Dif logika može biti usporena na velikim dokumentima – monitoriranje i optimizacija
  • Sadržavanje svih izvješća o dif-u sigurno za usklađenost
  • Koristite snažne postavke OCR-a za najbolje prepoznavanje

Najbolje prakse

  • Koristite istu OCR i skeniranje postavki u svim verzijama
  • Validacija difsa na kritičnim/visokim dokumentima
  • Prijavite se i kopirajte sve izvješća
  • Automatsko usporedivanje redovite verzije za ključne dokumente

Napredni scenariji

Scenarij 1: istaknuti razlike u vizualnom izlasku

Stvaranje prijavljenih PDF-a / slika koje naglašavaju otkrivenu promjenu teksta za pravne ekipe.

Scenarij 2: Automatsko obavješćivanje o kritičnim promjenama

Pošaljite obavijest / e-mail ako je važna pravna odredba dodana / uklonjena.

zaključak

Aspose.OCR Image Text Finder za .NET omogućuje automatiziranu, skalabilnu i revidiranu usporedbu verzije dokumenta – omogućavajući pravnim, poslovnim i timovima za praćenje da otkriju kritične promjene u skeniranim datotekama.

Za naprednije usporedbe radnih tokova, pogledajte Aspose.OCR za .NET API reference .

 Hrvatski