Làm thế nào để so sánh các phiên bản văn bản qua tài liệu bằng cách sử dụng .NET
So sánh văn bản giữa các phiên bản được quét khác nhau của các hợp đồng, biểu mẫu, hoặc tài liệu kinh doanh là quan trọng đối với việc xem xét pháp lý và tuân thủ. Aspose.OCR Image Text Finder for .NET làm cho quá trình trở nên nhanh hơn bằng cách tự động thu thập và so sạc văn Bản từ nhiều hình ảnh.
Vấn đề thế giới thực
Kiểm tra thủ công của các thay đổi phiên bản là chậm, dễ bị lỗi của con người, và không thể quy mô - đặc biệt là khi xử lý nhiều sửa đổi tài liệu hoặc hợp đồng pháp lý.
Giải pháp Overview
Tự động so sánh bằng cách thu thập văn bản từ hai hoặc nhiều hình ảnh được quét, sau đó sử dụng logic diff để nhấn mạnh và ghi lại các thay đổi văn Bản.
Nguyên tắc
- Visual Studio 2019 hoặc hơn
- .NET 6.0 hoặc mới hơn (hoặc .Net Framework 4.6.2+)
- Aspose.OCR cho .NET từ NuGet
PM> Install-Package Aspose.OCR
Chế độ thực hiện từng bước
Bước 1: Chuẩn bị các phiên bản tài liệu
string original = "contract_v1.png";
string revised = "contract_v2.png";
Bước 2: Xác nhận và rút văn bản từ hình ảnh
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Bước 3: So sánh văn bản và nhấn mạnh sự khác biệt
Sử dụng thư viện văn bản diff / so sánh (ví dụ, DiffPlex, logic tích hợp) để tìm thấy sự khác biệt:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Bước 4: Kết quả so sánh nhập khẩu và xuất khẩu
- Lưu các thay đổi vào CSV, tệp log, hoặc báo cáo diff có thể đọc bởi con người
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Bước 5: Batch hoặc Automated Version Control
- So sánh tất cả các phiên bản trong một thư mục, tự động như cần thiết
Bước 6: Hiển thị đầy đủ
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Sử dụng trường hợp và ứng dụng
Đánh giá pháp lý và tuân thủ
Nhanh chóng xác định các thay đổi trong các hợp đồng, chính sách hoặc thỏa thuận được quét.
Kiểm toán quy trình kinh doanh
Khám phá các bản chỉnh sửa không được phép hoặc chưa được phê duyệt trong các tập tin kỹ thuật số.
Quản lý tài liệu tự động hóa
Giữ theo dõi kiểm toán đầy đủ của tất cả các thay đổi trên các phiên bản tài liệu được quét.
Những thách thức và giải pháp chung
Thách thức 1: Nhỏ định dạng hoặc lỗi OCR
Solution: Tune settings, run secondary manual review on flagged changes.
Lời bài hát: Challenge 2: Big Document Set
** Giải pháp:** Tự động và đồng bộ hóa, ghi lại tất cả các kết quả để kiểm toán hiệu quả.
Lời bài hát: False Positives / Negatives
** Giải pháp:** Đánh giá thuật toán diff, xác nhận kết quả với các mẫu thế giới thực.
Các tính toán hiệu suất
- Logic Diff có thể chậm trên các tài liệu lớn - giám sát và tối ưu hóa
- Lưu tất cả các báo cáo diff an toàn để tuân thủ
- Sử dụng cài đặt OCR mạnh mẽ để nhận biết tốt nhất
Thực hành tốt nhất
- Sử dụng cùng OCR và cài đặt quét trên tất cả các phiên bản
- Chứng nhận diffs trên các tài liệu quan trọng / rủi ro cao
- Đăng nhập và sao lưu tất cả các báo cáo
- Tự động so sánh phiên bản thường xuyên cho các tài liệu chính
kịch bản tiên tiến
Kịch bản 1: Tăng cường sự khác biệt trong Visual Output
Tạo các PDF / hình ảnh được ghi lại để nhấn mạnh các thay đổi văn bản được phát hiện cho các nhóm pháp lý.
Kịch bản 2: Thông báo tự động về những thay đổi quan trọng
Gửi cảnh báo / email nếu điều khoản pháp lý quan trọng được thêm vào / xóa.
Kết luận
Aspose.OCR Image Text Finder cho .NET cho phép so sánh phiên bản tài liệu tự động, có thể quy mô và có thẩm quyền – trao quyền cho các nhóm pháp lý, kinh doanh và tuân thủ để phát hiện những thay đổi quan trọng trong các tệp được quét.
Đối với các dòng công việc so sánh tiên tiến hơn, xem Aspose.OCR cho .NET API Reference .