Bagaimana untuk membandingkan teks melalui versi dokumen menggunakan .NET
Perbandingan teks antara pelbagai versi yang disemak kontrak, borang, atau dokumen perniagaan adalah penting untuk pemeriksaan undang-undang dan pematuhan. Aspose.OCR Image Text Finder untuk .NET menyempurnakan proses dengan secara automatik mengekstrak dan membandingkan teks daripada beberapa imej.
Masalah dunia sebenar
Ulasan manual perubahan versi adalah perlahan, terdedah kepada kesilapan manusia, dan tidak boleh skala - terutamanya apabila menangani banyak pemeriksaan dokumen atau kontrak undang-undang.
Gambaran keseluruhan penyelesaian
Mengautomatikkan perbandingan dengan mengekstrak teks daripada dua atau lebih imej yang disemak, kemudian menggunakan logik diff untuk menonjolkan dan log perubahan teks.
Prerequisites
- Visual Studio 2019 atau seterusnya
- .NET 6.0 atau lebih baru (atau .Net Framework 4.6.2+)
- Aspose.OCR untuk .NET daripada NuGet
PM> Install-Package Aspose.OCR
Pelaksanaan langkah demi langkah
Langkah 1: Menyediakan versi dokumen
string original = "contract_v1.png";
string revised = "contract_v2.png";
Langkah 2: Mengenalpasti dan Mengekstrak teks daripada imej
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Langkah 3: Bandingkan teks dan menonjolkan perbezaan
Gunakan perpustakaan teks diff/perbandingan (contohnya, DiffPlex, logik terbina dalam) untuk menonjolkan perbezaan:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Langkah 4: Hasil Perbandingan Log dan Eksport
- Simpan perubahan kepada fail CSV, log, atau laporan diff yang boleh dibaca oleh manusia
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Langkah 5: Batch atau Automated Version Control
- Bandingkan semua versi dalam folder, automatik mengikut keperluan
Langkah 6 : Contoh Lengkap
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Penggunaan Kasus dan Permohonan
Pemeriksaan undang-undang dan pematuhan
Cepat menemui perubahan dalam kontrak, dasar, atau perjanjian yang disemak.
Audit Proses Perniagaan
Mengesan edisi yang tidak dibenarkan atau tidak diluluskan dalam arkib digital.
Pengurusan Dokumen Automasi
Mengekalkan jadual audit lengkap bagi semua perubahan dalam versi dokumen yang disemak.
Tantangan dan Penyelesaian Bersama
Tantangan 1: Kesilapan Format atau OCR yang kurang
** Penyelesaian:** Mengatur tetapan, menjalankan ulasan manual sekunder mengenai perubahan yang ditandai.
Tantangan 2 : Kumpulan Dokumen Besar
** Penyelesaian:** Automatik dan paralel, log semua hasil untuk audit yang cekap.
Tantangan 3: Positif palsu / negatif
** Penyelesaian:** Refine diff algoritma, mengesahkan output dengan sampel dunia sebenar.
Pertimbangan prestasi
- Logik Diff boleh menjadi perlahan pada dokumen besar - memantau dan mengoptimumkan
- Simpan semua laporan diff dengan selamat untuk pematuhan
- Menggunakan tetapan OCR yang kukuh untuk pengiktirafan yang terbaik
amalan terbaik
- Gunakan tetapan OCR yang sama dan pemindaian pada semua versi
- Mengesahkan diff pada dokumen kritikal / berisiko tinggi
- Log dan backup semua laporan
- Perbandingan versi biasa automatik untuk dokumen kunci
Senario lanjutan
Skenario 1: Menonjolkan perbezaan dalam output visual
Mencipta PDF / imej yang disenaraikan yang menonjolkan perubahan teks yang dikesan untuk pasukan undang-undang.
Skenario 2: Pemberitahuan automatik mengenai perubahan kritikal
Hantar pemberitahuan / e-mel jika klausa undang-undang penting ditambah / dihapuskan.
Conclusion
Aspose.OCR Image Text Finder untuk .NET membolehkan perbandingan versi dokumen secara automatik, boleh diukur dan boleh disemak — membenarkan pasukan undang-undang, perniagaan, dan pematuhan untuk mendeteksi perubahan kritikal dalam fail yang dipindai.
Untuk aliran kerja perbandingan yang lebih maju, lihat Aspose.OCR untuk .NET API Rujukan .