Cara membandingkan versi teks melalui dokumen menggunakan .NET
Perbandingan teks antara versi yang berbeda dari kontrak, formulir, atau dokumen bisnis adalah penting untuk pemeriksaan hukum dan pematuhan. Aspose.OCR Image Text Finder untuk .NET menyempurnakan proses dengan secara otomatis mengekstrak dan membandingkan teks dari beberapa gambar.
Masalah dunia nyata
Pemeriksaan manual dari perubahan versi lambat, rentan terhadap kesalahan manusia, dan tidak skala – terutama ketika menangani banyak revisi dokumen atau kontrak hukum.
Penyelesaian Overview
Mengautomatikkan perbandingan dengan mengekstrak teks dari dua atau lebih gambar yang dipindai, kemudian menggunakan logika diff untuk menonjolkan dan log perubahan teks.
Persyaratan
- Visual Studio 2019 atau lebih baru
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET dari NuGet
PM> Install-Package Aspose.OCR
Implementasi langkah demi langkah
Langkah 1: Siapkan versi dokumen
string original = "contract_v1.png";
string revised = "contract_v2.png";
Langkah 2: Mengidentifikasi dan mengekstrak teks dari gambar
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Langkah 3: Bandingkan teks dan menonjolkan perbedaan
Gunakan perpustakaan teks diff/perbandingan (misalnya, DiffPlex, logika terintegrasi) untuk menampilkan perbedaan:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Langkah 4: Hasil Perbandingan Log dan Eksport
- Simpan perubahan ke CSV, file log, atau laporan diff yang dapat dibaca oleh manusia
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Langkah 5: Batch atau Automated Version Control
- Bandingkan semua versi dalam folder, otomatis seperti yang diperlukan
Langkah 6: Contoh lengkap
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Menggunakan kasus dan aplikasi
Pemeriksaan hukum dan pematuhan
Cepat menemukan perubahan dalam kontrak, kebijakan, atau perjanjian yang dipindai.
Audit Proses Bisnis
Mengidentifikasi edisi yang tidak diizinkan atau tidak disetujui dalam arkib digital.
Pengelolaan Dokumen Automasi
Memelihara jalur audit lengkap dari semua perubahan di seluruh versi dokumen yang dipindai.
Tantangan dan Solusi Umum
Tantangan 1: kurang format atau kesalahan OCR
Solusi: Mengatur pengaturan, menjalankan ulasan manual sekunder pada perubahan yang ditandai.
Tantangan 2: Paket Dokumen Besar
** Solusi:** Automatik dan paralel, log semua hasil untuk audit yang efisien.
Tantangan 3: Positif dan Negatif
** Solusi:** Refine diff algoritma, validate output dengan sampel dunia nyata.
Pertimbangan kinerja
- Logika Diff dapat lambat pada dokumen besar – memantau dan mengoptimalkan
- Simpan semua laporan diff dengan aman untuk pematuhan
- Gunakan pengaturan OCR yang kuat untuk pengenalan terbaik
Praktik Terbaik
- Gunakan OCR yang sama dan pengaturan scan di semua versi
- Mengesahkan diff pada dokumen kritis / berisiko tinggi
- Log dan backup semua laporan
- Perbandingan otomatis versi reguler untuk dokumen kunci
Skenario Lanjutan
Skenario 1: Menonjolkan perbedaan dalam output visual
Menghasilkan PDF/gambar yang dicatat yang menonjolkan perubahan teks yang ditemukan untuk tim hukum.
Skenario 2: Pemberitahuan otomatis tentang perubahan kritis
Kirim peringatan / email jika klausa hukum penting ditambahkan / dihapus.
Kesimpulan
Aspose.OCR Image Text Finder untuk .NET memungkinkan perbandingan versi dokumen yang otomatis, scalable, dan audible – membolehkan tim hukum, bisnis dan pematuhan untuk mendeteksi perubahan kritis dalam file yang dipancarkan.
Untuk lebih lanjut perbandingan aliran kerja, lihat Aspose.OCR untuk .NET API Referensi .