.NET을 사용하여 문서 버전을 통해 텍스트를 비교하는 방법

.NET을 사용하여 문서 버전을 통해 텍스트를 비교하는 방법

계약, 양식 또는 비즈니스 문서의 다른 스캔 된 버전 사이의 텍스트를 비교하는 것은 법적 검토 및 준수에 중요합니다. .NET을위한 Aspose.OCR Image Text Finder는 자동으로 수많은 이미지를 추출하고 비교함으로써 프로세스를 단순화시킵니다.

현실 세계 문제

버전의 변경 사항에 대한 수동 검토는 느리고, 인간의 오류에 취약하며, 특히 많은 문서 개정 또는 법적 계약을 처리 할 때 확장되지 않습니다.

솔루션 검토

2개 이상의 스캔된 이미지에서 텍스트를 추출함으로써 비교를 자동화하고, 디프 논리를 사용하여 문자 변화를 강조하고 기록합니다.

원칙

  • Visual Studio 2019 또는 이후
  • .NET 6.0 또는 이후 (또는 .Net Framework 4.6.2+)
  • NuGet에서 .NET을 위한 ASPOSE.OCR
PM> Install-Package Aspose.OCR

단계별 실행

단계 1 : 문서 버전 준비

string original = "contract_v1.png";
string revised = "contract_v2.png";

단계 2: 이미지에서 텍스트를 인식하고 추출

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

단계 3: 텍스트를 비교하고 차이를 강조합니다.

diff/compare 텍스트 라이브러리 (예 : DiffPlex, 내장 논리)를 사용하여 차이점을 표시합니다.

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

단계 4 : 로그 및 수출 비교 결과

  • CSV, 로그 파일 또는 인간 읽을 수 있는 diff 보고서에 대한 변경 사항을 저장합니다.
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

단계 5 : 배치 또는 자동 버전 제어

  • 모든 버전을 하나의 폴더에서 비교, 필요한 경우 자동화

단계 6 : 완전한 예제

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

사례 및 응용 프로그램 사용

법률 및 준수 검토

스캔된 계약, 정책 또는 계약의 변경 사항을 신속하게 확인합니다.

비즈니스 프로세스 검토

디지털 아카이브에서 허가되지 않거나 승인되지 않은 편집을 발견합니다.

문서 관리 자동화

스캔된 문서 버전의 모든 변경 사항에 대한 완전한 검토 트랙을 유지합니다.

일반적인 도전과 해결책

도전 1 : 작은 형식화 또는 OCR 오류

솔루션: 설정을 탭하고, 표시된 변경 사항에 대한 초기 매뉴얼 검토를 실행합니다.

도전 2 : 큰 문서 세트

** 솔루션:** 자동화 및 병렬, 효율적인 감사를 위해 모든 결과를 기록합니다.

도전 3 : 거짓 긍정 / 부정

솔루션: 디프 알고리즘을 재현하고 실제 세계 샘플로 출력을 확인합니다.

성과 고려 사항

  • Diff 논리는 큰 문서에서 느리게 될 수 있습니다 - 모니터링 및 최적화
  • 모든 diff 보고서를 준수하기 위해 안전하게 저장합니다.
  • 최상의 인식을 위해 강력한 OCR 설정을 사용하십시오.

모범 사례

  • 모든 버전에서 동일한 OCR 및 스캔 설정을 사용하십시오.
  • 중요한 / 높은 위험 문서에 대한 디프를 검증
  • 로그 및 모든 보고서 복구
  • 핵심 문서에 대한 정기적 인 버전 비교를 자동화

고급 시나리오

시나리오 1 : 시각 출력의 차이를 강조

법률 팀에 대한 발견 된 텍스트 변경 사항을 강조하는 기록된 PDF/사진을 생성합니다.

시나리오 2 : 중요한 변화에 대한 자동 통보

중요한 법적 조항이 추가되거나 제거되면 알림 / 이메일을 보내십시오.

결론

ASPOSE.OCR Image Text Finder for .NET은 자동화되고, 스케일 가능하며, 검토 가능한 문서 버전 비교를 가능하게 하며, 법률, 비즈니스 및 준수 팀이 스캔된 파일에 중요한 변화를 감지할 수 있습니다.

더 진보된 비교 작업 흐름을 위해, 참조 .NET API 참조를 위한 ASPOSE.OCR .

 한국어