Как сравнивать текстовые версии через документы с помощью .NET
Сравнение текста между различными сканированными версиями контрактов, форм или бизнес-документов имеет решающее значение для правового пересмотра и соблюдения. Aspose.OCR Image Text Finder для .NET упрощает процесс автоматически, вытягивая и сравнивая текст из нескольких изображений.
Реальные мировые проблемы
Ручное обследование изменений версии медленно, подвергается человеческой ошибке и не скалируется, особенно при обработке множества документов или юридических договоров.
Решение обзор
Автоматизируйте сравнение, вытягивая текст из двух или более сканированных изображений, затем используя диф логику для подчеркивания и записи текстильных изменений.
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний (или .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET от NuGet
PM> Install-Package Aspose.OCR
Step-by-Step реализация
Шаг 1: Подготовка версий документа
string original = "contract_v1.png";
string revised = "contract_v2.png";
Шаг 2: распознать и извлечь текст из изображений
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Шаг 3: Сравнить текст и подчеркивать различия
Используйте текстовую диф/по сравнению библиотеку (например, ДифПлекс, встроенная логика) для выявления различий:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Шаг 4: Регистрация и экспорт Сравнение результатов
- Сохранение изменений в CSV, журнальный файл или человечески читаемый диф-репортаж
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Шаг 5: Батч или автоматический контроль версии
- Сравнить все версии в папке, автоматизировать по мере необходимости
Шаг 6: Полный пример
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Используйте случаи и приложения
Оценка правовой и соответствия
Быстро заметите изменения в сканированных контрактах, политиках или соглашениях.
Аудит бизнес-процессов
Открыть несанкционированные или неодобренные редактировки в цифровых архивах.
Автоматизация управления документами
Поддерживайте полный контроль всех изменений в сканированных версиях документов.
Общие вызовы и решения
Проблема 1: Небольшой форматирование или ошибки OCR
Решение: Проведите настройки, выполните вторичный руководящий обзор на флагманских изменениях.
Проблема 2: Большие документальные наборы
Решение: Автоматизируйте и паралелизуйте, записывайте все результаты для эффективного аудита.
Проблема 3: Фальшивые положительные / негативные
Решение: Рефинируйте алгоритм диф, подтверждайте вывод с образцами реального мира.
Рассмотрим производительность
- Диф логика может быть медленной на больших документах — мониторинг и оптимизация
- Сохранение всех диф-репортажей безопасно для соблюдения
- Используйте прочные настройки OCR для лучшего распознавания
Лучшие практики
- Используйте одно и то же ОКР и сканируйте настройки во всех версиях.
- Валидировать диффи на критических/высокорисковых документах
- Зарегистрировать и восстановить все отчеты
- Автоматическое сравнение обычных версий для ключевых документов
Развитые сценарии
Сценарий 1: Внимание различий в визуальном выходе
Создайте записанные PDF/изображения, которые подчеркивают обнаруженные изменения в тексте для юридических команд.
Сценарий 2: Автоматическое уведомление о критических изменениях
Пожалуйста, отправьте уведомление / электронную почту, если важная юридическая клауза добавляется / удаляется.
Заключение
ASPOSE.OCR Image Text Finder для .NET позволяет автоматизировать, скалировать и проверять версию документа, позволяя юридическим, деловым и исполнительным командам обнаружить критические изменения в сканированных файлах.
Для более продвинутых сравнительных рабочих потоков, см. ASPOSE.OCR для .NET API .