วิธีการเปรียบเทียบข้อความผ่านรูปแบบเอกสารโดยใช้ .NET
การเปรียบเทียบข้อความระหว่างเวอร์ชันการสแกนที่แตกต่างกันของสัญญาแบบฟอร์มหรือเอกสารทางธุรกิจเป็นสิ่งสําคัญสําหรับการตรวจสอบและปฏิบัติตามกฎหมาย Aspose.OCR Image Text Finder for .NET ปรับปรุงกระบวนการโดยอัตโนมัติการดึงดูดและประเมินข้อความจากภาพหลายภาพ
ปัญหาโลกจริง
การวิจารณ์แบบมือของการเปลี่ยนแปลงของเวอร์ชันนั้นช้าและมีแนวโน้มที่จะเกิดข้อผิดพลาดของมนุษย์และไม่สามารถปรับขนาดได้โดยเฉพาะอย่างยิ่งเมื่อจัดการกับการวิเคราะห์เอกสารจํานวนมากหรือข้อตกลงทางกฎหมาย
ความคิดเห็นเกี่ยวกับโซลูชัน
อัตโนมัติการเปรียบเทียบโดยการสกัดข้อความจากภาพที่สแกนสองหรือมากกว่าแล้วใช้โลโก้ diff เพื่อเน้นและบันทึกการเปลี่ยนแปลงข้อความ
ข้อกําหนด
- Visual Studio 2019 หรือภายหลัง
- .NET 6.0 หรือเร็วกว่า (หรือ .Net Framework 4.6.2+)
- Aspose.OCR สําหรับ .NET จาก NuGet
PM> Install-Package Aspose.OCR
การดําเนินการขั้นตอนขั้นตอน
ขั้นตอนที่ 1: การเตรียมเวอร์ชันเอกสาร
string original = "contract_v1.png";
string revised = "contract_v2.png";
ขั้นตอนที่ 2: การรับรู้และสกัดข้อความจากภาพ
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
ขั้นตอนที่ 3: การเปรียบเทียบข้อความและคํานวณความแตกต่าง
ใช้ห้องสมุดข้อความ diff/compare (เช่น DiffPlex, logic built-in) เพื่อระบุความแตกต่าง:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
ขั้นตอน 4: ผลการเปรียบเทียบการเข้าสู่ระบบและส่งออก
- การบันทึกการเปลี่ยนแปลงในไฟล์ CSV, log หรือรายงาน diff ที่สามารถอ่านได้โดยมนุษย์
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
ขั้นตอน 5: Batch หรืออัตโนมัติการควบคุมรุ่น
- การเปรียบเทียบเวอร์ชันทั้งหมดในโฟลเดอร์โดยอัตโนมัติตามความต้องการ
ขั้นตอน 6: ตัวอย่างที่สมบูรณ์
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
ใช้กรณีและแอปพลิเคชัน
การตรวจสอบกฎหมายและปฏิบัติตาม
การตรวจจับการเปลี่ยนแปลงอย่างรวดเร็วในข้อตกลงหรือนโยบายที่สแกน
การตรวจสอบกระบวนการธุรกิจ
การตรวจจับการแก้ไขที่ไม่ได้รับอนุญาตหรือไม่ได้รับการอนุมัติในเอกสารดิจิตอล
การจัดการเอกสารอัตโนมัติ
รักษาเส้นทางการตรวจสอบที่สมบูรณ์ของการเปลี่ยนแปลงทั้งหมดระหว่างเวอร์ชันเอกสารสแกน
ความท้าทายและโซลูชั่นทั่วไป
ความท้าทาย 1: ความผิดพลาดในการกําหนดค่าต่ําหรือ OCR
โซลูชัน: ปล่อยการตั้งค่าการตรวจสอบคู่มือที่สองเกี่ยวกับการเปลี่ยนแปลงที่แสดง
ความท้าทาย 2: ชุดเอกสารขนาดใหญ่
**โซลูชัน:**อัตโนมัติและสอดคล้องบันทึกผลทั้งหมดเพื่อการตรวจสอบที่มีประสิทธิภาพ
ความท้าทาย 3: ข้อดี / ความล้มเหลว
โซลูชัน: ลบอัลกอริทึม diff, validate output with real-world samples.
การพิจารณาประสิทธิภาพ
- ความ logic Diff อาจช้าบนเอกสารขนาดใหญ่ - ตรวจสอบและเพิ่มประสิทธิภาพ
- บันทึกรายงาน diff ทั้งหมดอย่างปลอดภัยเพื่อให้การปฏิบัติตาม
- ใช้การตั้งค่า OCR ที่แข็งแกร่งเพื่อรับรู้ที่ดีที่สุด
แนวทางที่ดีที่สุด
- ใช้การตั้งค่า OCR และสแกนเดียวกันในเวอร์ชันทั้งหมด
- การยืนยันข้อมูล diffs บนเอกสารที่มีความสําคัญ / ความเสี่ยงสูง
- เข้าสู่ระบบและบันทึกรายงานทั้งหมด
- การเปรียบเทียบเวอร์ชันปกติอัตโนมัติสําหรับเอกสารหลัก
การ์ตูนขั้นสูง
ฉาก 1: แสดงความแตกต่างในการออกภาพ
สร้างไฟล์ PDF ที่บันทึก / ภาพที่เน้นการเปลี่ยนแปลงข้อความที่ได้รับการตรวจพบสําหรับทีมทางกฎหมาย
ฉาก 2: การแจ้งเตือนอัตโนมัติเกี่ยวกับการเปลี่ยนแปลงที่สําคัญ
ส่งแจ้งเตือน/อีเมลหากข้อกําหนดทางกฎหมายที่สําคัญถูกเพิ่ม/ลบ
ข้อสรุป
Aspose.OCR Image Text Finder for .NET ช่วยให้การเปรียบเทียบเวอร์ชันเอกสารแบบอัตโนมัติที่สามารถสแกนได้และสามารถตรวจสอบได้ซึ่งช่วยให้ทีมงานทางกฎหมายธุรกิจและปฏิบัติการสามารถตรวจจับการเปลี่ยนแปลงที่สําคัญในไฟล์ที่สกรีนได้
สําหรับการเปรียบเทียบอัตราการทํางานขั้นสูงมากขึ้นดู Aspose.OCR สําหรับการอ้างอิง API .NET .