Як порівняти текст через версії документів за допомогою .NET
Порівняння тексту між різними сканованими версіями контрактів, форм або бізнес-документів є критичним для юридичної перевірки та дотримання. Aspose.OCR Image Text Finder для .NET ускладнює процес шляхом автоматичного екстракції та порівнювання тексту з декількох зображень.
Реальні проблеми світу
Ручний огляд змін версії повільний, схильний до людських помилок і не скальований – особливо при виконанні багатьох переглядів документів або юридичних контрактів.
Огляд рішення
Автоматизуйте порівняння, витягнувши текст з двох або декількох сканованих зображень, а потім використовуючи диф логіку для підкреслення і запису текстуальних змін.
Передумови
- Visual Studio 2019 або вище
- .NET 6.0 або вище (або .Net Framework 4.6.2+)
- ASPOSE.OCR для .NET від NuGet
PM> Install-Package Aspose.OCR
Крок за кроком реалізація
Крок 1: Підготуйте версії документів
string original = "contract_v1.png";
string revised = "contract_v2.png";
Крок 2: Визначити і витягти текст з зображень
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Крок 3: Порівняйте текст і підкреслюйте відмінності
Використовуйте текстову дифф/порівняння бібліотеки (наприклад, DiffPlex, вбудована логіка) для виявлення відмінностей:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Крок 4: Результати порівняння лог і експорту
- Зберегти зміни до CSV, лог-файлу або доповіді диф, яку можна прочитати людиною
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Крок 5: Батч або автоматичний контроль версії
- Порівняйте всі версії в папці, автоматизуйте як потрібно
Крок 6: Повний приклад
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Використання випадків та додатків
Юридичний і відповідний огляд
Швидко помітити зміни в сканованих контрактах, політиках або угодах.
Аудит бізнес-процесу
Виявлення несанкціонованих або недопущених редагувань в цифрових архівах.
Автоматизація управління документами
Зберігайте повний аудиторський відстеження всіх змін у сканованих версіях документів.
Спільні виклики та рішення
Виклик 1: Недостатній форматинг або помилки OCR
Рішення: Натисніть налаштування, виконайте вторинний ручний огляд за відображеними змінами.
Виклик 2: Великі документальні комплекти
Рішення: Автоматизувати і паралелізувати, записувати всі результати для ефективного аудиту.
Виклик 3: Фальшиві позитивні / негативні
Рішення: Рефінізуйте диф алгоритм, підтверджуйте вихід з реальними зразками.
Виконання розглядів
- Диф логіка може бути повільною на великих документах — моніторинг і оптимізація
- Зберігати всі диф звіти безпечно для дотримання
- Використовуйте міцні налаштування OCR для кращого розпізнавання
Найкращі практики
- Використовуйте ті ж самі OCR і сканування налаштувань у всіх версіях
- Затвердження диффусів на критичних/високорискових документах
- Зареєструйтесь і завантажуйте всі повідомлення
- Автоматичне порівняння звичайної версії для ключових документів
Розширені сценарії
Сценарій 1: Зверніть увагу на відмінності у візуальному виході
Створення записані PDF-диски / зображення, які підкреслюють виявлені зміни тексту для юридичних команд.
Сценарій 2: Автоматичне повідомлення про критичні зміни
Надіслати повідомлення / електронну пошту, якщо важлива юридична клауза додається / видаляється.
Заключення
ASPOSE.OCR Image Text Finder для .NET забезпечує автоматичне, скальоване та аудиторське порівняння версій документів, що дозволяє юридичним, діловим та відповідним командам виявити критичні зміни в сканованих файлах.
Для більш передових порівняльних робочих потоків, див. Aspose.OCR для .NET API Референт .