Як порівняти текст через версії документів за допомогою .NET

Як порівняти текст через версії документів за допомогою .NET

Порівняння тексту між різними сканованими версіями контрактів, форм або бізнес-документів є критичним для юридичної перевірки та дотримання. Aspose.OCR Image Text Finder для .NET ускладнює процес шляхом автоматичного екстракції та порівнювання тексту з декількох зображень.

Реальні проблеми світу

Ручний огляд змін версії повільний, схильний до людських помилок і не скальований – особливо при виконанні багатьох переглядів документів або юридичних контрактів.

Огляд рішення

Автоматизуйте порівняння, витягнувши текст з двох або декількох сканованих зображень, а потім використовуючи диф логіку для підкреслення і запису текстуальних змін.

Передумови

  • Visual Studio 2019 або вище
  • .NET 6.0 або вище (або .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET від NuGet
PM> Install-Package Aspose.OCR

Крок за кроком реалізація

Крок 1: Підготуйте версії документів

string original = "contract_v1.png";
string revised = "contract_v2.png";

Крок 2: Визначити і витягти текст з зображень

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Крок 3: Порівняйте текст і підкреслюйте відмінності

Використовуйте текстову дифф/порівняння бібліотеки (наприклад, DiffPlex, вбудована логіка) для виявлення відмінностей:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Крок 4: Результати порівняння лог і експорту

  • Зберегти зміни до CSV, лог-файлу або доповіді диф, яку можна прочитати людиною
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Крок 5: Батч або автоматичний контроль версії

  • Порівняйте всі версії в папці, автоматизуйте як потрібно

Крок 6: Повний приклад

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Використання випадків та додатків

Юридичний і відповідний огляд

Швидко помітити зміни в сканованих контрактах, політиках або угодах.

Аудит бізнес-процесу

Виявлення несанкціонованих або недопущених редагувань в цифрових архівах.

Автоматизація управління документами

Зберігайте повний аудиторський відстеження всіх змін у сканованих версіях документів.

Спільні виклики та рішення

Виклик 1: Недостатній форматинг або помилки OCR

Рішення: Натисніть налаштування, виконайте вторинний ручний огляд за відображеними змінами.

Виклик 2: Великі документальні комплекти

Рішення: Автоматизувати і паралелізувати, записувати всі результати для ефективного аудиту.

Виклик 3: Фальшиві позитивні / негативні

Рішення: Рефінізуйте диф алгоритм, підтверджуйте вихід з реальними зразками.

Виконання розглядів

  • Диф логіка може бути повільною на великих документах — моніторинг і оптимізація
  • Зберігати всі диф звіти безпечно для дотримання
  • Використовуйте міцні налаштування OCR для кращого розпізнавання

Найкращі практики

  • Використовуйте ті ж самі OCR і сканування налаштувань у всіх версіях
  • Затвердження диффусів на критичних/високорискових документах
  • Зареєструйтесь і завантажуйте всі повідомлення
  • Автоматичне порівняння звичайної версії для ключових документів

Розширені сценарії

Сценарій 1: Зверніть увагу на відмінності у візуальному виході

Створення записані PDF-диски / зображення, які підкреслюють виявлені зміни тексту для юридичних команд.

Сценарій 2: Автоматичне повідомлення про критичні зміни

Надіслати повідомлення / електронну пошту, якщо важлива юридична клауза додається / видаляється.

Заключення

ASPOSE.OCR Image Text Finder для .NET забезпечує автоматичне, скальоване та аудиторське порівняння версій документів, що дозволяє юридичним, діловим та відповідним командам виявити критичні зміни в сканованих файлах.

Для більш передових порівняльних робочих потоків, див. Aspose.OCR для .NET API Референт .

 Українська