Jak porównać tekst w wersji dokumentów za pomocą .NET
Porównanie tekstu między różnymi skanowanymi wersjami umów, formularzy lub dokumentów biznesowych jest kluczowe dla przeglądu prawnego i zgodności. Aspose.OCR Image Text Finder dla .NET ułatwia proces automatycznie wydobywania i porównywania tekstu z wielu obrazów.
Problem świata rzeczywistego
Ręczny przegląd zmian w wersji jest powolny, podatny na błędy ludzkie i nie jest skalowalny – szczególnie przy obsłudze wielu recenzji dokumentów lub umów prawnych.
Przegląd rozwiązania
Automatyzuj porównanie, wyciągając tekst z dwóch lub więcej skanowanych obrazów, a następnie używając logiki dif do podkreślenia i rejestrowania zmian tekstowych.
Warunki
- Visual Studio 2019 lub później
- .NET 6.0 lub nowszy (lub .Net Framework 4.6.2+)
- Aspose.OCR dla .NET od NuGet
PM> Install-Package Aspose.OCR
Wdrażanie krok po kroku
Krok 1: Przygotuj wersje dokumentów
string original = "contract_v1.png";
string revised = "contract_v2.png";
Krok 2: Rozpoznawanie i ekstrakcja tekstu z obrazów
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Krok 3: Porównaj tekst i podkreśl różnice
Użyj biblioteki tekstowej diff/compare (np. DiffPlex, wbudowana logika), aby odnaleźć różnice:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Krok 4: Wyniki porównania logowania i eksportu
- Przechowywanie zmian w pliku CSV, dzienniku lub ludzko czytelnym raporcie diff
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Krok 5: Batch lub automatyczna kontrola wersji
- Porównaj wszystkie wersje w folderze, automatyzuj zgodnie z wymaganiami
Krok 6: Pełny przykład
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Korzystanie z przypadków i aplikacji
Przegląd prawny i zgodności
Szybko wykryć zmiany w skanowanych umowach, polityce lub umowy.
Audyt procesów biznesowych
Zidentyfikuj nieuprawnione lub nieautoryzowane edycje w archiwum cyfrowym.
Automatyzacja zarządzania dokumentami
Utrzymuj pełną ścieżkę audytu wszystkich zmian w skanowanych wersjach dokumentów.
Wspólne wyzwania i rozwiązania
Wyzwanie 1: Mniejsze błędy w formatowaniu lub OCR
Rozwiązanie: Wprowadź ustawienia, przeprowadź wtórny przegląd podręczny dotyczący wprowadzonych zmian.
Wyzwanie 2: Wielkie zestawy dokumentów
Rozwiązanie: Automatyzuj i równolegaj, rejestruj wszystkie wyniki w celu efektywnego audytu.
Wyzwanie 3: fałszywe pozytywne i negatywne
Rozwiązanie: Odśwież algorytm dif, weryfikuj produkcję z próbkami w świecie rzeczywistym.
uwzględnienie wydajności
- Logika dif może być powolna na dużych dokumentach – monitorowanie i optymalizacja
- Przechowywanie wszystkich raportów dif bezpiecznie dla zgodności
- Użyj solidnych ustawień OCR dla najlepszego rozpoznawania
Najlepsze praktyki
- Użyj tego samego OCR i skanowanie ustawień we wszystkich wersjach
- Własność dyfów na dokumentach krytycznych/wysokiego ryzyka
- Zapisz i zapisz wszystkie raporty
- Automatyczne porównanie wersji dla dokumentów kluczowych
Zaawansowane scenariusze
Scenariusz 1: Podkreślenie różnic w wyniku wizualnym
Tworzenie zapisanych plików PDF / obrazów, które podkreślają wykryte zmiany w tekście dla zespołów prawnych.
Scenariusz 2: Automatyczne powiadomienie o krytycznych zmianach
Wyślij powiadomienie / e-mail, jeśli ważna klauzula prawna jest dodana / usunięta.
konkluzja
Aspose.OCR Image Text Finder dla .NET umożliwia automatyczne, skalowalne i audytowe porównanie wersji dokumentów – pozwalając zespołom prawniczym, biznesowym i zgodnym z prawem wykryć krytyczne zmiany w skanowanych plikach.
Dla bardziej zaawansowanych porównawczych przepływów roboczych, zobacz Aspose.OCR dla .NET API Referencje .