Hogyan lehet összehasonlítani a szöveget a dokumentum verziók segítségével .NET

Hogyan lehet összehasonlítani a szöveget a dokumentum verziók segítségével .NET

A szerződések, űrlapok vagy üzleti dokumentumok különböző szkennelt változatai közötti szöveg összehasonlítása alapvető fontosságú a jogi felülvizsgálat és a betartás szempontjából.A Aspose.OCR Image Text Finder for .NET automatikusan szűkíti a folyamatot a több képből származó szöveg kivonásával és hasonlításával.

Valódi problémák

A változások kézi felülvizsgálata lassú, emberi hibákra hajlamos, és nem skálázható – különösen a dokumentumok vagy a jogi szerződések sokaságának kezelésekor.

megoldás áttekintése

Automatizálja az összehasonlítást a két vagy több szkennelt képből származó szöveg kivonásával, majd diff logikával hangsúlyozza és rögzíti a szöveges változásokat.

előfeltételek

  • Visual Studio 2019 vagy újabb
  • .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
  • ASPOSE.OCR for .NET a NuGet-ről
PM> Install-Package Aspose.OCR

lépésről lépésre megvalósítás

1. lépés: Dokumentációs verziók készítése

string original = "contract_v1.png";
string revised = "contract_v2.png";

2. lépés: A szöveg felismerése és kivonása a képekből

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

3. lépés: Összehasonlítsa a szöveget és kiemeli a különbségeket

Használjon egy diff/összehasonlító könyvtárat (pl. DiffPlex, beépített logika) a különbségek azonosításához:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

4. lépés: Log és export összehasonlítás eredményei

  • CSV, naplófájl vagy emberi olvasható diff-jelentés változásainak mentése
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

5. lépés: Batch vagy automatikus verzió vezérlés

  • Összehasonlítsa az összes verziót egy mappában, szükség szerint automatizálva

6. lépés: Teljes példa

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Esetek és alkalmazások használata

Jogi és megfelelőségi felülvizsgálat

Gyorsan észleli a szkennelt szerződésekben, politikákban vagy megállapodásokban bekövetkező változásokat.

Üzleti folyamatok ellenőrzése

Nem engedélyezett vagy nem jóváhagyott szerkesztések felismerése a digitális archívumokban.

Dokumentummenedzsment automatizálás

Tartsa az összes változás teljes ellenőrzési nyomát a szkennelt dokumentum verzióin keresztül.

Közös kihívások és megoldások

1. kihívás: kisebb formázási vagy OCR hibák

** Megoldás:** A beállításokat törölje, másodlagos kézi felülvizsgálatot végez a megjelölt változásokra.

2. kihívás: Nagy dokumentumkészletek

** Megoldás:** Automatizáljuk és párhuzamosítjuk az összes eredményt a hatékony audithoz.

3. kihívás: hamis pozitív / negatív

** Megoldás:** Refine diff algoritmus, validálja a kimenetet valós világ mintákkal.

A teljesítmény megfontolása

  • A Diff logika lassú lehet a nagy dokumentumokon - monitorozza és optimalizálja
  • Az összes diff jelentést biztonságosan tárolja a megfelelés érdekében
  • Használjon robusztus OCR beállításokat a legjobb felismeréshez

Legjobb gyakorlatok

  • Használja ugyanazt az OCR-t és a szkennelési beállításokat minden verzióban
  • A kritikus/magas kockázatú dokumentumok ellenőrizése
  • Regisztráljon és mentse fel az összes jelentést
  • Automatikus rendszeres verzió összehasonlítása kulcsfontosságú dokumentumokhoz

fejlett forgatókönyvek

1. forgatókönyv: A vizuális kimenetel közötti különbségek kiemelkedése

Hozzon létre feljegyzett PDF-eket/képeket, amelyek hangsúlyozzák az észlelt szövegváltozásokat a jogi csapatok számára.

2. forgatókönyv: A kritikus változások automatikus értesítése

Hívjon értesítést / e-mailt, ha a fontos jogi záradék hozzáadódik / törlődik.

következtetések

Az ASPOSE.OCR Image Text Finder for .NET lehetővé teszi az automatizált, skálázható és hitelesített dokumentum verzió összehasonlítását – ezáltal a jogi, üzleti és megfelelőségi csapatok észlelhetik a szkennelt fájlok kritikus változását.

A fejlett munkafolyamatok összehasonlításához lásd: Az ASPOSE.OCR a .NET API referenciájához .

 Magyar