چگونه با استفاده از .NET متن را با نسخه های مستند مقایسه کنیم

چگونه با استفاده از .NET متن را با نسخه های مستند مقایسه کنیم

مقایسه متن بین نسخه های مختلف اسکن شده از قراردادهای، فرم ها و یا اسناد کسب و کار برای بررسی قانونی و رعایت آن بسیار مهم است. ASPOSE.OCR Image Text Finder برای .NET این فرآیند را با استخراج و مقایسه خودکار متن از چندین تصویر به روز می کند.

مشکل دنیای واقعی

بازنگری دستی تغییرات نسخه آهسته است، در معرض اشتباهات انسانی است و قابل مقیاس نیست – به ویژه هنگامی که بسیاری از بررسی های اسناد یا قراردادهای قانونی را انجام می دهد.

بررسی راه حل

مقایسه را با استخراج متن از دو یا چند تصویر اسکن شده، و سپس با استفاده از منطق دیف برای برجسته سازی و ثبت تغییرات متن، اتوماتیک کنید.

پیش شرط

  • Visual Studio 2019 یا بالاتر
  • .NET 6.0 یا بالاتر (یا .Net Framework 4.6.2+)
  • Aspose.OCR برای .NET از NuGet
PM> Install-Package Aspose.OCR

پیاده سازی گام به گام

مرحله اول: نسخه های مستند را آماده کنید

string original = "contract_v1.png";
string revised = "contract_v2.png";

مرحله دوم: شناسایی و استخراج متن از تصاویر

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

مرحله 3: مقایسه متن و تفاوت های برجسته

از یک کتابخانه متن diff/compare (به عنوان مثال، DiffPlex، منطق ساخته شده) برای مشاهده تفاوت ها استفاده کنید:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

مرحله چهارم: نتایج مقایسه ورود و صادرات

  • ذخیره تغییرات در CSV، فایل سوابق یا گزارش دیف قابل خواندن انسان
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

مرحله 5: کنترل نسخه اتوماتیک یا باتچ

  • مقایسه تمام نسخه ها در یک پوشه، اتوماتیک به عنوان مورد نیاز

مرحله ششم: نمونه کامل

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

استفاده از موارد و برنامه ها

بررسی قانونی و انطباق

تغییرات سریع در قراردادهای اسکن شده، سیاست ها یا موافقت نامه ها را مشاهده کنید.

حسابرسی روند کسب و کار

شناسایی ویرایش های غیر مجاز یا غیر مجوز در آرشیو های دیجیتال.

مدیریت اسناد اتوماسیون

یک ردیف کامل از تمام تغییرات در نسخه های اسناد اسکن شده را حفظ کنید.

چالش ها و راه حل های مشترک

چالش ۱: اشتباهات کوچک در فرمت سازی یا OCR

** راه حل:** تنظیمات را تایپ کنید، بازنگری دستورالعمل ثانویه را در مورد تغییرات برجسته انجام دهید.

چالش دوم: مجموعه های بزرگ اسناد

** راه حل:** اتوماتیک و موازی، ثبت تمام نتایج برای حسابرسی موثر.

چالش سوم: مثبت ها و منفی ها

** راه حل:** الگوریتم دیف را اصلاح کنید، خروجی را با نمونه های دنیای واقعی تایید کنید.

بررسی عملکرد

  • منطق Diff ممکن است در اسناد بزرگ آهسته باشد – نظارت و بهینه سازی
  • ذخیره تمام گزارش های دیف به طور ایمن برای انطباق
  • استفاده از تنظیمات OCR قوی برای بهترین تشخیص

بهترین شیوه‌ها

  • استفاده از همان OCR و تنظیمات اسکن در تمام نسخه ها
  • تأیید دیف ها بر روی اسناد بحرانی / با ریسک بالا
  • ثبت نام و پشتیبانی از تمام گزارش ها
  • مقایسه اتوماتیک نسخه های معمولی برای اسناد کلیدی

سناریوهای پیشرفته

سناریو 1: تفاوت در خروجی بصری را برجسته کنید

ایجاد فایل های PDF / تصاویر ثبت شده که تغییرات متن شناسایی شده را برای تیم های حقوقی برجسته می کند.

سناریو ۲: اطلاع رسانی اتوماتیک در مورد تغییرات بحرانی

ارسال هشدار / ایمیل در صورت اضافه کردن / حذف یک بند قانونی مهم.

نتیجه گیری

Aspose.OCR Image Text Finder برای .NET امکان مقایسه نسخه اسناد به صورت اتوماتیک، قابل مقیاس و قابل حساب را فراهم می کند – به تیم های حقوقی، کسب و کار و انطباق اجازه می دهد تا تغییرات حیاتی در فایل های اسکن شده را تشخیص دهند.

برای مقایسه بیشتر جریان های کاری، ببینید Aspose.OCR برای .NET API مرجع .

 فارسی