Jak porównać tekst w wersji dokumentów za pomocą .NET

Jak porównać tekst w wersji dokumentów za pomocą .NET

Porównanie tekstu między różnymi skanowanymi wersjami umów, formularzy lub dokumentów biznesowych jest kluczowe dla przeglądu prawnego i zgodności. Aspose.OCR Image Text Finder dla .NET ułatwia proces automatycznie wydobywania i porównywania tekstu z wielu obrazów.

Problem świata rzeczywistego

Ręczny przegląd zmian w wersji jest powolny, podatny na błędy ludzkie i nie jest skalowalny – szczególnie przy obsłudze wielu recenzji dokumentów lub umów prawnych.

Przegląd rozwiązania

Automatyzuj porównanie, wyciągając tekst z dwóch lub więcej skanowanych obrazów, a następnie używając logiki dif do podkreślenia i rejestrowania zmian tekstowych.

Warunki

  • Visual Studio 2019 lub później
  • .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
  • Aspose.OCR dla .NET od NuGet
PM> Install-Package Aspose.OCR

Wdrażanie krok po kroku

Krok 1: Przygotuj wersje dokumentów

string original = "contract_v1.png";
string revised = "contract_v2.png";

Krok 2: Rozpoznawanie i ekstrakcja tekstu z obrazów

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Krok 3: Porównaj tekst i podkreśl różnice

Użyj biblioteki tekstowej diff/compare (np. DiffPlex, wbudowana logika), aby odnaleźć różnice:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Krok 4: Wyniki porównania logowania i eksportu

  • Przechowywanie zmian w pliku CSV, dzienniku lub ludzko czytelnym raporcie diff
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Krok 5: Batch lub automatyczna kontrola wersji

  • Porównaj wszystkie wersje w folderze, automatyzuj zgodnie z wymaganiami

Krok 6: Pełny przykład

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Korzystanie z przypadków i aplikacji

Przegląd prawny i zgodności

Szybko wykryć zmiany w skanowanych umowach, polityce lub umowy.

Audyt procesów biznesowych

Zidentyfikuj nieuprawnione lub nieautoryzowane edycje w archiwum cyfrowym.

Automatyzacja zarządzania dokumentami

Utrzymuj pełną ścieżkę audytu wszystkich zmian w skanowanych wersjach dokumentów.

Wspólne wyzwania i rozwiązania

Wyzwanie 1: Mniejsze błędy w formatowaniu lub OCR

Rozwiązanie: Wprowadź ustawienia, przeprowadź wtórny przegląd podręczny dotyczący wprowadzonych zmian.

Wyzwanie 2: Wielkie zestawy dokumentów

Rozwiązanie: Automatyzuj i równolegaj, rejestruj wszystkie wyniki w celu efektywnego audytu.

Wyzwanie 3: fałszywe pozytywne i negatywne

Rozwiązanie: Odśwież algorytm dif, weryfikuj produkcję z próbkami w świecie rzeczywistym.

uwzględnienie wydajności

  • Logika dif może być powolna na dużych dokumentach – monitorowanie i optymalizacja
  • Przechowywanie wszystkich raportów dif bezpiecznie dla zgodności
  • Użyj solidnych ustawień OCR dla najlepszego rozpoznawania

Najlepsze praktyki

  • Użyj tego samego OCR i skanowanie ustawień we wszystkich wersjach
  • Własność dyfów na dokumentach krytycznych/wysokiego ryzyka
  • Zapisz i zapisz wszystkie raporty
  • Automatyczne porównanie wersji dla dokumentów kluczowych

Zaawansowane scenariusze

Scenariusz 1: Podkreślenie różnic w wyniku wizualnym

Tworzenie zapisanych plików PDF / obrazów, które podkreślają wykryte zmiany w tekście dla zespołów prawnych.

Scenariusz 2: Automatyczne powiadomienie o krytycznych zmianach

Wyślij powiadomienie / e-mail, jeśli ważna klauzula prawna jest dodana / usunięta.

konkluzja

Aspose.OCR Image Text Finder dla .NET umożliwia automatyczne, skalowalne i audytowe porównanie wersji dokumentów – pozwalając zespołom prawniczym, biznesowym i zgodnym z prawem wykryć krytyczne zmiany w skanowanych plikach.

Dla bardziej zaawansowanych porównawczych przepływów roboczych, zobacz Aspose.OCR dla .NET API Referencje .

 Polski