Bagaimana untuk membandingkan teks melalui versi dokumen menggunakan .NET

Bagaimana untuk membandingkan teks melalui versi dokumen menggunakan .NET

Perbandingan teks antara pelbagai versi yang disemak kontrak, borang, atau dokumen perniagaan adalah penting untuk pemeriksaan undang-undang dan pematuhan. Aspose.OCR Image Text Finder untuk .NET menyempurnakan proses dengan secara automatik mengekstrak dan membandingkan teks daripada beberapa imej.

Masalah dunia sebenar

Ulasan manual perubahan versi adalah perlahan, terdedah kepada kesilapan manusia, dan tidak boleh skala - terutamanya apabila menangani banyak pemeriksaan dokumen atau kontrak undang-undang.

Gambaran keseluruhan penyelesaian

Mengautomatikkan perbandingan dengan mengekstrak teks daripada dua atau lebih imej yang disemak, kemudian menggunakan logik diff untuk menonjolkan dan log perubahan teks.

Prerequisites

  • Visual Studio 2019 atau seterusnya
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET daripada NuGet
PM> Install-Package Aspose.OCR

Pelaksanaan langkah demi langkah

Langkah 1: Menyediakan versi dokumen

string original = "contract_v1.png";
string revised = "contract_v2.png";

Langkah 2: Mengenalpasti dan Mengekstrak teks daripada imej

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Langkah 3: Bandingkan teks dan menonjolkan perbezaan

Gunakan perpustakaan teks diff/perbandingan (contohnya, DiffPlex, logik terbina dalam) untuk menonjolkan perbezaan:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Langkah 4: Hasil Perbandingan Log dan Eksport

  • Simpan perubahan kepada fail CSV, log, atau laporan diff yang boleh dibaca oleh manusia
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Langkah 5: Batch atau Automated Version Control

  • Bandingkan semua versi dalam folder, automatik mengikut keperluan

Langkah 6 : Contoh Lengkap

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Penggunaan Kasus dan Permohonan

Pemeriksaan undang-undang dan pematuhan

Cepat menemui perubahan dalam kontrak, dasar, atau perjanjian yang disemak.

Audit Proses Perniagaan

Mengesan edisi yang tidak dibenarkan atau tidak diluluskan dalam arkib digital.

Pengurusan Dokumen Automasi

Mengekalkan jadual audit lengkap bagi semua perubahan dalam versi dokumen yang disemak.

Tantangan dan Penyelesaian Bersama

Tantangan 1: Kesilapan Format atau OCR yang kurang

** Penyelesaian:** Mengatur tetapan, menjalankan ulasan manual sekunder mengenai perubahan yang ditandai.

Tantangan 2 : Kumpulan Dokumen Besar

** Penyelesaian:** Automatik dan paralel, log semua hasil untuk audit yang cekap.

Tantangan 3: Positif palsu / negatif

** Penyelesaian:** Refine diff algoritma, mengesahkan output dengan sampel dunia sebenar.

Pertimbangan prestasi

  • Logik Diff boleh menjadi perlahan pada dokumen besar - memantau dan mengoptimumkan
  • Simpan semua laporan diff dengan selamat untuk pematuhan
  • Menggunakan tetapan OCR yang kukuh untuk pengiktirafan yang terbaik

amalan terbaik

  • Gunakan tetapan OCR yang sama dan pemindaian pada semua versi
  • Mengesahkan diff pada dokumen kritikal / berisiko tinggi
  • Log dan backup semua laporan
  • Perbandingan versi biasa automatik untuk dokumen kunci

Senario lanjutan

Skenario 1: Menonjolkan perbezaan dalam output visual

Mencipta PDF / imej yang disenaraikan yang menonjolkan perubahan teks yang dikesan untuk pasukan undang-undang.

Skenario 2: Pemberitahuan automatik mengenai perubahan kritikal

Hantar pemberitahuan / e-mel jika klausa undang-undang penting ditambah / dihapuskan.

Conclusion

Aspose.OCR Image Text Finder untuk .NET membolehkan perbandingan versi dokumen secara automatik, boleh diukur dan boleh disemak — membenarkan pasukan undang-undang, perniagaan, dan pematuhan untuk mendeteksi perubahan kritikal dalam fail yang dipindai.

Untuk aliran kerja perbandingan yang lebih maju, lihat Aspose.OCR untuk .NET API Rujukan .

 Melayu