Как сравнивать текстовые версии через документы с помощью .NET

Как сравнивать текстовые версии через документы с помощью .NET

Сравнение текста между различными сканированными версиями контрактов, форм или бизнес-документов имеет решающее значение для правового пересмотра и соблюдения. Aspose.OCR Image Text Finder для .NET упрощает процесс автоматически, вытягивая и сравнивая текст из нескольких изображений.

Реальные мировые проблемы

Ручное обследование изменений версии медленно, подвергается человеческой ошибке и не скалируется, особенно при обработке множества документов или юридических договоров.

Решение обзор

Автоматизируйте сравнение, вытягивая текст из двух или более сканированных изображений, затем используя диф логику для подчеркивания и записи текстильных изменений.

Предупреждения

  • Visual Studio 2019 или позднее
  • .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
  • ASPOSE.OCR для .NET от NuGet
PM> Install-Package Aspose.OCR

Step-by-Step реализация

Шаг 1: Подготовка версий документа

string original = "contract_v1.png";
string revised = "contract_v2.png";

Шаг 2: распознать и извлечь текст из изображений

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Шаг 3: Сравнить текст и подчеркивать различия

Используйте текстовую диф/по сравнению библиотеку (например, ДифПлекс, встроенная логика) для выявления различий:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Шаг 4: Регистрация и экспорт Сравнение результатов

  • Сохранение изменений в CSV, журнальный файл или человечески читаемый диф-репортаж
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Шаг 5: Батч или автоматический контроль версии

  • Сравнить все версии в папке, автоматизировать по мере необходимости

Шаг 6: Полный пример

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Используйте случаи и приложения

Оценка правовой и соответствия

Быстро заметите изменения в сканированных контрактах, политиках или соглашениях.

Аудит бизнес-процессов

Открыть несанкционированные или неодобренные редактировки в цифровых архивах.

Автоматизация управления документами

Поддерживайте полный контроль всех изменений в сканированных версиях документов.

Общие вызовы и решения

Проблема 1: Небольшой форматирование или ошибки OCR

Решение: Проведите настройки, выполните вторичный руководящий обзор на флагманских изменениях.

Проблема 2: Большие документальные наборы

Решение: Автоматизируйте и паралелизуйте, записывайте все результаты для эффективного аудита.

Проблема 3: Фальшивые положительные / негативные

Решение: Рефинируйте алгоритм диф, подтверждайте вывод с образцами реального мира.

Рассмотрим производительность

  • Диф логика может быть медленной на больших документах — мониторинг и оптимизация
  • Сохранение всех диф-репортажей безопасно для соблюдения
  • Используйте прочные настройки OCR для лучшего распознавания

Лучшие практики

  • Используйте одно и то же ОКР и сканируйте настройки во всех версиях.
  • Валидировать диффи на критических/высокорисковых документах
  • Зарегистрировать и восстановить все отчеты
  • Автоматическое сравнение обычных версий для ключевых документов

Развитые сценарии

Сценарий 1: Внимание различий в визуальном выходе

Создайте записанные PDF/изображения, которые подчеркивают обнаруженные изменения в тексте для юридических команд.

Сценарий 2: Автоматическое уведомление о критических изменениях

Пожалуйста, отправьте уведомление / электронную почту, если важная юридическая клауза добавляется / удаляется.

Заключение

ASPOSE.OCR Image Text Finder для .NET позволяет автоматизировать, скалировать и проверять версию документа, позволяя юридическим, деловым и исполнительным командам обнаружить критические изменения в сканированных файлах.

Для более продвинутых сравнительных рабочих потоков, см. ASPOSE.OCR для .NET API .

 Русский