Kā salīdzināt tekstu ar dokumentu versijām, izmantojot .NET

Kā salīdzināt tekstu ar dokumentu versijām, izmantojot .NET

Teksta salīdzināšana starp dažādām līgumu, veidlapas vai biznesa dokumentu skenētajām versijām ir svarīga juridiskajai pārskatīšanai un atbilstībai.Aspose.OCR Image Text Finder for .NET vienkāršo procesu, automātiski iegūstot un salīdzinot tekstu no vairākiem attēliem.

Reālā pasaules problēma

Versijas izmaiņu rokasgrāmata ir lēna, pakļauta cilvēka kļūmēm, un nav skalējama - it īpaši, kad tiek veikti daudzi dokumentu pārskatījumi vai juridiskie līgumi.

Risinājumu pārskats

Automatizējiet salīdzinājumu, iegūstot tekstu no divām vai vairākām skenētajām attēliem, pēc tam izmantojot dif loģiku, lai uzsvertu un ierakstītu teksta izmaiņas.

Prerequisites

  • Visual Studio 2019 vai vēlāk
  • .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
  • Aspose.OCR par .NET no NuGet
PM> Install-Package Aspose.OCR

Step-by-step īstenošana

1. posms: Dokumentu versijas sagatavošana

string original = "contract_v1.png";
string revised = "contract_v2.png";

2. solis: Atzīt un izņemt tekstu no attēliem

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

3. solis: salīdziniet tekstu un piebildiet atšķirības

Izmantojiet teksta dif/komparācijas bibliotēku (piemēram, DiffPlex, iebūvēta loģika), lai konstatētu atšķirības:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

4. solis: Norēķinu un eksporta salīdzināšanas rezultāti

  • Ievadiet izmaiņas CSV, log failā vai cilvēka lasāmā dif ziņojumā
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

5. solis: Batch vai automātiskā versijas vadība

  • Salīdziniet visas versijas mapē, automātiski pēc nepieciešamības

6. solis: pilns piemērs

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Izmantojiet gadījumus un pieteikumus

Juridiskā un atbilstības pārbaude

Ātri pamanīt izmaiņas skenētajos līgumos, politikās vai nolīgumos.

Biznesa procesa revīzija

Atklājiet neatļautus vai neuzticamus rediģējumus digitālajos arhīvos.

Dokumentu vadības automatizācija

Saglabājiet pilnīgu visu izmaiņu revīzijas pusi skenēto dokumentu versijās.

Kopīgi izaicinājumi un risinājumi

1. izaicinājums: maza formātāšanās vai OCR kļūdas

Rīkojums: Izveidojiet iestatījumus, izpildiet sekundāro manuālo pārskatu par apzīmētām izmaiņām.

2. izaicinājums: Lieli dokumentu komplekti

Rīze: Automātiski un paralēli, visu rezultātu ierakstiet efektīvai revīzijai.

3. izaicinājums: nepatiesi pozitīvi / negatīvi

Rīze: Refinē dif algoritmu, validē rezultātu ar reālajiem paraugiem.

Darbības apsvērumi

  • Diff loģika var būt lēna lielos dokumentos – monitoring un optimizācija
  • Uzglabāt visus dif ziņojumus droši atbilstības nolūkā
  • Izmantojiet spēcīgus OCR iestatījumus, lai iegūtu labāko atpazīstamību

Labākās prakses

  • Izmantojiet tos pašus OCR un skenēšanas iestatījumus visās versijās
  • Validējiet difus kritiskajiem / augsta riska dokumentiem
  • Lejupielādēt un atjaunot visus ziņojumus
  • Automātiska regulāra versijas salīdzināšana par atslēgvārdu dokumentiem

Augstākie scenāriji

1. scenārijs: Vizuālā iznākuma atšķirības

Iegūstiet ierakstītus PDF / attēlus, kas norāda uz atklātām teksta izmaiņām juridiskajām komandām.

2. scenārijs: Automātiskā paziņošana par kritiskām izmaiņām

Sūtiet brīdinājumu/e-pastu, ja ir pievienota/izņemta svarīga juridiskā klauzula.

Conclusion

Aspose.OCR Image Text Finder for .NET ļauj automātiski, skalējams un auditatīvs dokumentu versijas salīdzinājums – ļauj juridiskām, biznesa un atbilstības komandām atklāt kritiskas izmaiņas skenētajos failos.

Lai uzlabotu darba plūsmu salīdzināšanu, skatiet Aspose.OCR par .NET API atsauci .

 Latviski