Kuinka verrata tekstiä asiakirjan kautta .NET-versioita

Kuinka verrata tekstiä asiakirjan kautta .NET-versioita

Sopimusten, lomakkeiden tai liiketoimintaasiakirjojen eri skannattujen versioiden tekstin vertaileminen on ratkaisevan tärkeää laillisen tarkastelun ja noudattamisen kannalta. Aspose.OCR Image Text Finder for .NET yksinkertaistaa prosessia automaattisesti poimalla ja vertaamalla tekstiä useista kuvista.

Reaalimaailman ongelma

Versiota koskevien muutosten manuaalinen tarkastelu on hidasta, alttiita ihmisen virheeseen ja epätasapainoista – varsinkin kun käsitellään monia asiakirjojen tarkistuksia tai oikeudellisia sopimuksia.

Ratkaisun yleiskatsaus

Automaattisesti vertailun poistamalla tekstiä kahdesta tai useammasta skannatuista kuvista, sitten käyttämällä diff logiikkaa korostamaan ja kirjaamaan tekstimuutoksia.

edellytykset

  • Visual Studio 2019 tai uudempi
  • .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET alkaen NuGet
PM> Install-Package Aspose.OCR

Vaiheittainen toteutus

Vaihe 1: Valmista dokumenttiversioita

string original = "contract_v1.png";
string revised = "contract_v2.png";

Vaihe 2: Tunnista ja poista teksti kuvista

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Vaihe 3: Vertaile tekstiä ja korosta eroja

Käytä tekstidiff/vertailu kirjastoa (esim. DiffPlex, sisäänrakennettu logiikka) erottavaksi:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Vaihe 4: Rekisteröinti ja viennin vertailutulokset

  • Tallenna muutokset CSV: ssä, log-tiedostoon tai ihmiselle luettavissa olevaan diff-raportointiin
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Vaihe 5: Batch tai automaattinen versiohallinta

  • Vertaile kaikkia versioita kansiossa, automaattisesti tarvittaessa

Vaihe 6: Täydellinen esimerkki

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Käytä tapauksia ja sovelluksia

Oikeudellinen ja vaatimustenmukaisuus tarkastelu

Nopeasti havaita tarkistettujen sopimusten, politiikkojen tai sopimusten muutokset.

Liiketoimintaprosessin tilintarkastus

Tutustu luvattomiin tai hyväksymättömiin muokkauksiin digitaalisissa arkistoissa.

Automaattinen dokumentinhallinta

Pidä täydellinen tarkastusjälki kaikista muutoksista skannattujen asiakirjojen versioiden läpi.

Yhteiset haasteet ja ratkaisut

Haaste 1: Pienempi muotoilu tai OCR virheet

** Ratkaisu:** Tune asetukset, suorittaa toissijainen manuaalinen tarkastelu merkittyjä muutoksia.

Haaste 2: Suuret asiakirjat

** Ratkaisu:** Automaattinen ja rinnakkainen, kaikki tulokset tallennetaan tehokkaalle tarkastukselle.

Haaste 3: Väärät positiiviset / negatiiviset

** Ratkaisu:** Korjaa diff-algoritmi, validoi tuloksen reaaliaikaisilla näytöillä.

suorituskyvyn huomioon ottaminen

  • Diff logiikka voi olla hidas suurilla asiakirjoilla – tarkkailu ja optimointi
  • Säilytä kaikki diff-raportit turvallisesti vaatimustenmukaisuuden vuoksi
  • Käytä kestäviä OCR-asetuksia parhaan tunnistuksen varmistamiseksi

Parhaat käytännöt

  • Käytä samaa OCR- ja skannausasetuksia kaikissa versioissa
  • Kriittisten / korkean riskin asiakirjojen validointi
  • Lataa ja tallenna kaikki raportit
  • Automaattinen säännöllinen versio vertailua avainasiakirjoille

Edistyneet skenaariot

Käsikirja 1: Visuaalisen tuloksen erot

Luo merkittyjä PDF-tiedostoja/kuvia, jotka korostavat havaitut tekstin muutokset oikeudellisille tiimille.

Skenaario 2: Kriittisten muutosten automaattinen ilmoittaminen

Lähetä ilmoitus/e-mail, jos tärkeä laillinen lauseke on lisätty/ poistettu.

johtopäätöksiä

ASPOSE.OCR Image Text Finder for .NET mahdollistaa automaattisen, skaalattavan ja tarkastettavan asiakirjan versioiden vertailun, jonka avulla oikeudelliset, liiketoiminnalliset ja vaatimustenmukaisuusryhmät voivat havaita skannattujen tiedostojen kriittisiä muutoksia.

Edistyksellisempi vertailun työnkulut, katso ASPOSE.OCR .NET API-referenssille .

 Suomi