Como comparar versões de texto através de documentos usando .NET

Como comparar versões de texto através de documentos usando .NET

Comparação de texto entre diferentes versões escaneadas de contratos, formulários ou documentos de negócios é essencial para a revisão legal e o cumprimento. Aspose.OCR Image Text Finder para .NET simplifica o processo automaticamente extraindo e comparando texto de múltiplas imagens.

Problemas do mundo real

A revisão manual das mudanças de versão é lenta, propensas a erros humanos e não escalável – especialmente quando se trata de muitas revisões de documentos ou contratos legais.

Solução Overview

Automate a comparação extraindo texto de duas ou mais imagens escaneadas e, em seguida, use a lógica dif para destacar e registar mudanças textuais.

Pré-requisitos

  • Visual Studio 2019 ou posterior
  • .NET 6.0 ou posterior (ou .Net Framework 4.6.2+)
  • Aspose.OCR para .NET de NuGet
PM> Install-Package Aspose.OCR

Implementação passo a passo

Passo 1: Prepare as versões do documento

string original = "contract_v1.png";
string revised = "contract_v2.png";

Passo 2: Reconhecer e extrair texto das imagens

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Passo 3: Compare o texto e destacar as diferenças

Use uma biblioteca de texto diff/compare (por exemplo, DiffPlex, lógica incorporada) para identificar diferenças:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Etapa 4: Resultados de comparação de log e exportação

  • Salve alterações em CSV, arquivo de log ou relatório dif humano-leável
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Passo 5: Batch ou Controle de Versão Automática

  • Compare todas as versões em uma pasta, automatizando conforme necessário

Passo 6: Exemplo completo

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Use Casos e Aplicações

Revisão legal e de conformidade

Descubra rapidamente as mudanças em contratos, políticas ou acordos escaneados.

Auditoria de Processos de Negócios

Detectar edição não autorizada ou não aprovada em arquivos digitais.

Automação de gerenciamento de documentos

Mantenha uma pista de auditoria completa de todas as alterações em versões de documentos escaneados.

Desafios comuns e soluções

Desafio 1: Erros de Formatação Menor ou OCR

** Solução:** Tune as configurações, execute a revisão manual secundária sobre as mudanças marcadas.

Título 2: Grandes Documentos

** Solução:** Automatizar e paralelizar, logar todos os resultados para uma auditoria eficiente.

3o desafio: falsos positivos e negativos

** Solução:** Refine o algoritmo diff, valida a saída com amostras do mundo real.

Considerações de desempenho

  • Dif lógica pode ser lenta em grandes documentos – monitor e otimização
  • Armazenar todos os relatórios dif com segurança para conformidade
  • Use configurações OCR robustas para melhor reconhecimento

Melhores Práticas

  • Use as mesmas configurações OCR e scan em todas as versões
  • Validação de difusos em documentos críticos / de alto risco
  • Log e back up todos os relatórios
  • Comparação automática de versões regulares para documentos chave

Os cenários avançados

Scenário 1: destacando as diferenças na saída visual

Gerar PDFs/imagens anotados que destacem alterações de texto detectadas para equipes legais.

Scenário 2: Notificação automática de mudanças críticas

Envie um alerta/e-mail se uma cláusula legal importante for adicionada/removida.

Conclusão

O Aspose.OCR Image Text Finder para .NET permite a comparação de versões de documento automatizada, escalável e audível – permitindo que as equipes legais, empresariais e de conformidade detectem mudanças críticas nos arquivos scannados.

Para fluxos de trabalho de comparação mais avançados, ver Aspose.OCR para .NET API Referência .

 Português