Jak porovnat text přes verze dokumentů pomocí .NET

Jak porovnat text přes verze dokumentů pomocí .NET

Srovnání textu mezi různými skenovanými verzemi smluv, formulářů nebo obchodních dokumentů je pro právní přezkum a dodržování kritické.Aspose.OCR Image Text Finder pro .NET zjednodušuje proces automaticky extrahováním a porovnáváním textů z několika snímků.

Reálný světový problém

Manuální přezkum změn verze je pomalý, náchylný k lidské chybě a není skalovatelný – zejména při zpracování mnoha revizí dokumentů nebo právních smluv.

Řešení přehled

Automatizujte srovnání tím, že extrahujete text z dvou nebo více skenovaných obrázků, a pak použijte dif logiku pro zvýraznění a záznam textových změn.

Předpoklady

  • Visual Studio 2019 nebo novější
  • .NET 6.0 nebo novější (nebo .Net Framework 4.6.2+)
  • Aspose.OCR pro .NET z NuGet
PM> Install-Package Aspose.OCR

krok za krokem implementace

Krok 1: Připravte verzi dokumentů

string original = "contract_v1.png";
string revised = "contract_v2.png";

Krok 2: Rozpoznat a extrahovat text z obrázků

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Krok 3: Porovnejte text a zdůrazňujte rozdíly

Použijte textovou knihovnu diff / srovnání (např. DiffPlex, vestavěná logika) pro zjištění rozdílů:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Krok 4: Výsledky srovnání přihlášek a vývozu

  • Shromažďujte změny v CSV, logovém souboru nebo lidsky čitelném dif zprávě
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Krok 5: Batch nebo automatická kontrola verze

  • Porovnejte všechny verze v složce, automatizujte podle potřeby

Krok 6: Kompletní příklad

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Použití případů a aplikací

Právní a dodržovací hodnocení

Rychle zaznamenat změny ve skenovaných smlouvách, politikách nebo dohodách.

Audit obchodního procesu

Odhalení neoprávněných nebo neautorizovaných úprav v digitálních archivech.

Automatizace řízení dokumentů

Udržujte kompletní průběh auditu všech změn přes skenované verze dokumentů.

Společné výzvy a řešení

Výzva 1: Méně formátování nebo chyby OCR

Rozhodnutí: Zrušit nastavení, provést sekundární manuální přehled o změnách.

Výzva 2: Velké dokumenty

Rozhodnutí: Automatizujte a paralelizujete, zaznamenáváte všechny výsledky pro efektivní audit.

Výzva 3: Falešné pozitivy / Negativy

Rozhodnutí: Refine diff algoritmus, validace výstupu s vzorky v reálném světě.

Úvahy o výkonu

  • Diff logika může být pomalá na velkých dokumentech – monitorování a optimalizace
  • Uchovávejte všechny zprávy diff bezpečně pro dodržování požadavků
  • Použijte robustní nastavení OCR pro nejlepší rozpoznání

Nejlepší postupy

  • Použijte stejné nastavení OCR a skenování ve všech verzích
  • Validace difs na kritických / vysoce rizikových dokumentech
  • Přihláška a zálohování všech zpráv
  • Automatické srovnání pravidelných verzí pro klíčové dokumenty

Pokročilé scénáře

Scénář 1: Zvýraznit rozdíly v vizuálním výstupu

Vytvořte zaznamenané PDF / obrázky, které zdůrazňují zjištěné změny textu pro právní týmy.

Scénář 2: Automatické oznámení kritických změn

Odeslat upozornění / e-mail, pokud je důležitá právní doložka přidána / odstraněna.

závěr

Aspose.OCR Image Text Finder pro .NET umožňuje automatizované, skalovatelné a auditelné srovnání verzí dokumentu – umožňující právním, obchodním a dodržovacím týmům detekovat kritické změny ve skenovaných souborech.

Pro lepší srovnání pracovních toků, viz Aspose.OCR pro .NET API Reference .

 Čeština