Како упоредити текстуалне верзије кроз документе користећи .NET

Како упоредити текстуалне верзије кроз документе користећи .NET

Упоређивање текста између различитих скенираних верзија уговора, обрасца или пословних докумената је од суштинског значаја за правни преглед и поштовање.Аппосе.ОЦР Имиџ Тест Фендер за .НЕТ поједноставља процес аутоматским извлачењем и поређењем текста из више слика.

Реал светски проблем

Ручни преглед промена верзије је споран, склони људским грешкама, а не скалисани – посебно када се баве многим ревизијама докумената или правним уговорима.

Преглед решења

Аутоматизирајте поређење извлачењем текста из две или више скенираних слика, а затим користите диф логику да бисте истакли и регистровали текстуалне промене.

Принципи

  • Visual Studio 2019 или касније
  • .NET 6.0 или новији (или .Net Framework 4.6.2+)
  • Aspose.OCR za .NET od NuGet
PM> Install-Package Aspose.OCR

Корак по корак спровођење

Корак 1: Припремите верзије документа

string original = "contract_v1.png";
string revised = "contract_v2.png";

Корак 2: Препознавање и извлачење текста из слика

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Корак 3: Поређење текста и наглашавање разлике

Користите текстуалну диф/поређење библиотеку (на пример, ДифПлекс, уграђена логика) да бисте пронашли разлике:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Корак 4: Резултати лога и извоза поређења

  • Сачувајте промене у ЦСВ, дневним датотекама или људско-читаним диф извештајима
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Корак 5: Батцх или аутоматски контрола верзије

  • Поређење свих верзија у фасциклу, аутоматски ако је потребно

Корак 6: Потпуни пример

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Коришћење случајева и апликација

Правни и правни преглед

Брзо приметити промене у скенираним уговорима, политикама или споразумима.

Аудит пословног процеса

Одређивање неовлашћених или неодређених уређаја у дигиталним архивима.

Аутоматизација управљања документима

Држите комплетну ревизију свих промена у скенираним верзијама документа.

Заједнички изазови и решења

Проблем 1: Мање форматирање или ОЦР грешке

Решење: Направите подешавања, извршите секундарну ручну ревизију о означеним променама.

Izazov 2: Veliki dokumenti

Решење: Аутоматизује и паралелизује, региструје све резултате за ефикасну ревизију.

Проблем 3: Фалсификовани позитивни / негативни

Решење: Рефинирајте диф алгоритам, валидирајте производњу са реалним узорцима.

Размишљање о перформанси

  • Диф логика може бити спора на великим документима – мониторинг и оптимизација
  • Складиштење свих диф извештаја безбедно за поштовање
  • Користите јаке подешавања ОЦР-а за најбоље препознавање

Најбоља пракса

  • Користите исти ОЦР и скенирање подешавања у свим верзијама
  • Validacija difsa na kritičnim/visokim dokumentima
  • Пријавите се и резервишете све извештаје
  • Аутоматско поређење редовне верзије за кључне документе

Напредни сценарио

Сценарио 1: Показати разлике у визуелном излазу

Направите пријављене ПДФ / слике које наглашавају откривене промене у тексту за правне тимове.

Сценарио 2: Аутоматско обавештење о критичним променама

Пошаљите обавештење / е-маил ако је важна правна клауза додата / уклоњена.

Закључак

Aspose.OCR Image Text Finder za .NET omogućava automatizovan, skalabilan i audibilan usporedbu verzije dokumenta – omogućavajući pravnim, poslovnim i usklađenim timovima da otkriju kritične promene u skeniranim datotekama.

Za naprednije usporedbe tokova rada, pogledajte Aspose.OCR за .NET API референце .

 Српски