Come confrontare le versioni di testo attraverso i documenti utilizzando .NET
Il confronto di testo tra diverse versioni scansionate di contratti, moduli o documenti aziendali è fondamentale per la revisione legale e il rispetto. Aspose.OCR Image Text Finder per .NET semplifica il processo automaticamente estrarendo e confrontando il testo da più immagini.
Il problema del mondo reale
La revisione manuale dei cambiamenti di versione è lenta, pronta ad errori umani e non scalabile – specialmente quando si trattano di molte revisioni di documenti o contratti legali.
Soluzione Overview
Automatizzare la confrontazione extractando testo da due o più immagini scansionate, quindi utilizzando la logica diff per evidenziare e registrare i cambiamenti di testo.
Prerequisiti
- Visual Studio 2019 o successivo
- .NET 6.0 o successivo (o .Net Framework 4.6.2+)
- Aspose.OCR per .NET da NuGet
PM> Install-Package Aspose.OCR
Implementazione passo dopo passo
Passo 1: Preparare le versioni dei documenti
string original = "contract_v1.png";
string revised = "contract_v2.png";
Passo 2: Riconoscere e estrarre il testo dalle immagini
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Passo 3: Confronta il testo e evidenzia le differenze
Utilizzare una libreria di testo diff/compare (ad esempio, DiffPlex, logica integrata) per individuare le differenze:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Passo 4: Risultati di log e esportazione confronto
- Salva i cambiamenti a CSV, file di log o relazioni diff leggibili per l’uomo
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Passo 5: Batch o Controllo di versione automatica
- Confronta tutte le versioni in una cartella, automatizzate come necessario
Passo 6 - Esempio completo
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Utilizzare casi e applicazioni
revisione legale e di conformità
Scopri rapidamente i cambiamenti nei contratti, nelle politiche o negli accordi scansionati.
Audit del processo aziendale
Identificare edizioni non autorizzate o non approvate negli archivi digitali.
La gestione automatica dei documenti
Mantenere una traccia di audit completa di tutti i cambiamenti attraverso le versioni dei documenti scansionati.
Sfide e soluzioni comuni
sfida 1: minori errori di formattamento o OCR
Soluzione: Tune le impostazioni, eseguire una revisione manuale secondaria sui cambiamenti segnalati.
Sito ufficiale: Big Document Set
Soluzione: Automatizzare e parallelizzare, registrare tutti i risultati per un’audit efficiente.
3 – False Positive / Negative
Soluzione: Rifina l’algoritmo diff, valida la produzione con campioni del mondo reale.
Considerazioni di prestazioni
- La logica Diff può essere lenta su grandi documenti – monitorare e ottimizzare
- Mantenere tutti i rapporti diff in modo sicuro per la conformità
- Utilizzare solide impostazioni OCR per il miglior riconoscimento
Migliori pratiche
- Utilizzare lo stesso OCR e le impostazioni di scansione in tutte le versioni
- Validare i difsi sui documenti critici / ad alto rischio
- Registrazione e backup tutti i rapporti
- Confronto automatico delle versioni regolari per i documenti chiave
Scenari avanzati
Scenario 1: evidenziare le differenze nella visualizzazione
Generare PDF/immagini annotate che evidenziano i cambiamenti di testo rilevati per i team legali.
Scenario 2: Avviso automatico dei cambiamenti critici
Invia un avviso/e-mail se viene aggiunta/rimuovuta una clausola legale importante.
conclusione
Aspose.OCR Image Text Finder per .NET consente la comparazione automatica, scalabile e audibile delle versioni dei documenti, consentendo ai team legali, aziendali e di conformità di rilevare cambiamenti critici nei file scansionati.
Per un flusso di lavoro comparativo più avanzato, vedere Aspose.OCR per .NET API Reference .