Cara membandingkan versi teks melalui dokumen menggunakan .NET

Cara membandingkan versi teks melalui dokumen menggunakan .NET

Perbandingan teks antara versi yang berbeda dari kontrak, formulir, atau dokumen bisnis adalah penting untuk pemeriksaan hukum dan pematuhan. Aspose.OCR Image Text Finder untuk .NET menyempurnakan proses dengan secara otomatis mengekstrak dan membandingkan teks dari beberapa gambar.

Masalah dunia nyata

Pemeriksaan manual dari perubahan versi lambat, rentan terhadap kesalahan manusia, dan tidak skala – terutama ketika menangani banyak revisi dokumen atau kontrak hukum.

Penyelesaian Overview

Mengautomatikkan perbandingan dengan mengekstrak teks dari dua atau lebih gambar yang dipindai, kemudian menggunakan logika diff untuk menonjolkan dan log perubahan teks.

Persyaratan

  • Visual Studio 2019 atau lebih baru
  • .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
  • Aspose.OCR untuk .NET dari NuGet
PM> Install-Package Aspose.OCR

Implementasi langkah demi langkah

Langkah 1: Siapkan versi dokumen

string original = "contract_v1.png";
string revised = "contract_v2.png";

Langkah 2: Mengidentifikasi dan mengekstrak teks dari gambar

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Langkah 3: Bandingkan teks dan menonjolkan perbedaan

Gunakan perpustakaan teks diff/perbandingan (misalnya, DiffPlex, logika terintegrasi) untuk menampilkan perbedaan:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Langkah 4: Hasil Perbandingan Log dan Eksport

  • Simpan perubahan ke CSV, file log, atau laporan diff yang dapat dibaca oleh manusia
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Langkah 5: Batch atau Automated Version Control

  • Bandingkan semua versi dalam folder, otomatis seperti yang diperlukan

Langkah 6: Contoh lengkap

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Menggunakan kasus dan aplikasi

Pemeriksaan hukum dan pematuhan

Cepat menemukan perubahan dalam kontrak, kebijakan, atau perjanjian yang dipindai.

Audit Proses Bisnis

Mengidentifikasi edisi yang tidak diizinkan atau tidak disetujui dalam arkib digital.

Pengelolaan Dokumen Automasi

Memelihara jalur audit lengkap dari semua perubahan di seluruh versi dokumen yang dipindai.

Tantangan dan Solusi Umum

Tantangan 1: kurang format atau kesalahan OCR

Solusi: Mengatur pengaturan, menjalankan ulasan manual sekunder pada perubahan yang ditandai.

Tantangan 2: Paket Dokumen Besar

** Solusi:** Automatik dan paralel, log semua hasil untuk audit yang efisien.

Tantangan 3: Positif dan Negatif

** Solusi:** Refine diff algoritma, validate output dengan sampel dunia nyata.

Pertimbangan kinerja

  • Logika Diff dapat lambat pada dokumen besar – memantau dan mengoptimalkan
  • Simpan semua laporan diff dengan aman untuk pematuhan
  • Gunakan pengaturan OCR yang kuat untuk pengenalan terbaik

Praktik Terbaik

  • Gunakan OCR yang sama dan pengaturan scan di semua versi
  • Mengesahkan diff pada dokumen kritis / berisiko tinggi
  • Log dan backup semua laporan
  • Perbandingan otomatis versi reguler untuk dokumen kunci

Skenario Lanjutan

Skenario 1: Menonjolkan perbedaan dalam output visual

Menghasilkan PDF/gambar yang dicatat yang menonjolkan perubahan teks yang ditemukan untuk tim hukum.

Skenario 2: Pemberitahuan otomatis tentang perubahan kritis

Kirim peringatan / email jika klausa hukum penting ditambahkan / dihapus.

Kesimpulan

Aspose.OCR Image Text Finder untuk .NET memungkinkan perbandingan versi dokumen yang otomatis, scalable, dan audible – membolehkan tim hukum, bisnis dan pematuhan untuk mendeteksi perubahan kritis dalam file yang dipancarkan.

Untuk lebih lanjut perbandingan aliran kerja, lihat Aspose.OCR untuk .NET API Referensi .

 Indonesia