Как да сравним текстовете през текстовите версии с .NET

Как да сравним текстовете през текстовите версии с .NET

Сравнението на текст между различни скенирани версии на договори, формуляри или бизнес документи е от решаващо значение за правния преглед и съответствие. Aspose.OCR Image Text Finder за .NET усъвършенства процеса, като автоматично извлича и сравнява текст от няколко изображения.

Реални световни проблеми

Ручният преглед на промените в версията е бавен, предразположен към човешки грешки и не е скалиращ – особено при обработката на много документи или правни договори.

Преглед на решението

Автоматизирайте сравнението чрез извличане на текст от две или повече скенирани изображения, след което използвайте диф логика за подчертаване и записване на текстуални промени.

Предупреждения

  • Visual Studio 2019 или по-късно
  • .NET 6.0 или по-късно (или .Net Framework 4.6.2+)
  • ASPOSE.OCR за .NET от NuGet
PM> Install-Package Aspose.OCR

Стъпка по стъпка изпълнение

Стъпка 1: Подгответе версиите на документа

string original = "contract_v1.png";
string revised = "contract_v2.png";

Стъпка 2: Препознаване и извличане на текст от изображения

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Стъпка 3: Сравнете текста и подчертавайте различията

Използвайте текстова диф/сравнена библиотека (напр. ДифПлекс, вградена логика) за идентифициране на различията:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Стъпка 4: Резултати от сравнението на регистрацията и износа

  • Съхраняване на промени в CSV, дневния файл или човешките прочети диф доклади
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Стъпка 5: Батч или автоматичен контрол на версията

  • Сравнете всички версии в папка, автоматизирайте, както е необходимо

Стъпка 6: Допълнителен пример

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Използване на случаи и приложения

Правен и съответствие преглед

Бързо забележете промени в скенираните договори, политики или споразумения.

Одит на бизнес процесите

Откриване на неразрешени или неоторизирани издания в цифровите архиви.

Автоматизиране на управлението на документи

Поддържайте пълен преглед на всички промени в сканираните версии на документа.

Съвместни предизвикателства и решения

Предизвикателство 1: Недостатъчно форматиране или грешки в OCR

Решение: Извършване на настройки, провеждане на вторичен ръчен преглед на флагмански промени.

Предизвикателство 2: Големи документи

Решението: Автоматизиране и паралелиране, записване на всички резултати за ефективен одит.

Предизвикателство 3: Фалшиви положителни / отрицателни

Решение: Рефинирайте диф алгоритъма, валидирайте резултата с реални проби.

Преглед на изпълнението

  • Диф логиката може да бъде бавна върху големи документи — мониторинг и оптимизация
  • Съхранявайте всички диф доклади безопасно за съответствие
  • Използвайте стабилни настройки на OCR за най-добро разпознаване

Най-добрите практики

  • Използвайте една и съща OCR и сканирайте настройките във всички версии
  • Валидиране на диффи на критични/високорискови документи
  • Регистриране и възстановяване на всички доклади
  • Автоматично сравняване на редовни версии за ключови документи

Разширени сценарии

Сценарий 1: Разлики в визуалния изход

Създаване на записани PDF / изображения, които подчертават откритите промени в текста за юридическите екипи.

Сценарий 2: Автоматично уведомяване за критични промени

Изпратете предупреждение / имейл, ако е добавена / изтрита важна правна клауза.

заключение

ASPOSE.OCR Image Text Finder за .NET позволява автоматизирано, скалиращо и одитиращо сравняване на версията на документа – което дава възможност на юридическите, бизнес и екипи за съответствие да откриват критични промени в сканираните файлове.

За по-напреднали сравнителни работни потоци, вижте Aspose.OCR за .NET API Референт .

 Български