Hvordan sammenligne tekst gjennom dokumentversjoner ved hjelp av .NET
Sammenligning av tekst mellom forskjellige skannede versjoner av kontrakter, skjemaer eller forretningsdokumenter er avgjørende for juridisk gjennomgang og overholdelse. Aspose.OCR Image Text Finder for .NET raskere prosessen ved automatisk å ekstraherer og sammenligne tekst fra flere bilder.
Real-verdens problem
Den manuelle granskingen av versjonsendringer er langsom, sannsynlig for menneskelig feil, og ikke skalerbar – spesielt når man håndterer mange dokumentrevisjoner eller juridiske kontrakter.
Oversikt over løsning
Automatisere sammenligningen ved å trekke tekst fra to eller flere skannede bilder, og deretter bruke diff logikk for å fremheve og logge tekstendringer.
Prerequisites
- Visual Studio 2019 eller senere
- .NET 6.0 eller nyere (eller .Net Framework 4.6.2+)
- Aspose.OCR for .NET fra NuGet
PM> Install-Package Aspose.OCR
Step-by-step implementering
Steg 1: Forbereder dokumentversjoner
string original = "contract_v1.png";
string revised = "contract_v2.png";
Steg 2: gjenkjenne og utveksle tekst fra bilder
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Trinn 3: Sammenlign tekst og fremheve forskjeller
Bruk en tekst diff/compare bibliotek (f.eks. DiffPlex, innebygd logikk) for å finne forskjeller:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Steg 4: Log og eksport sammenligningsresultater
- Lagre endringer i CSV, loggfil eller menneskelig lesbar diff-rapport
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Steg 5: Batch eller automatisert versjonskontroll
- Sammenlign alle versjoner i en mappe, automatisk som nødvendig
Steg 6: Komplett eksempel
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Bruker tilfeller og applikasjoner
Juridisk og overholdelsesundersøkelse
Snart oppdage endringer i skannede kontrakter, politikker eller avtaler.
Økonomisk prosessauditing
Oppdag uautoriserte eller u godkjente redigeringer i digitale arkiver.
Dokumentstyring Automation
Oppbevar en fullstendig revisjonsspor av alle endringer gjennom skannede dokumentversjoner.
Vanlige utfordringer og løsninger
Utfordring 1: Minor Formatting eller OCR-feil
Løsning: Tune innstillingene, kjør sekundær manuell gjennomgang av flagget endringer.
Utfordring 2: Store dokumenter
Løsning: Automate og parallelle, logge alle resultatene for effektiv revisjon.
Utfordring 3: Fake Positive / Negative
Løsning: Refine diff-algoritmen, valider utgang med virkelige prøver.
Performance vurderinger
- Diff logikk kan være sakte på store dokumenter – overvåke og optimalisere
- Lagre alle diff-rapporter trygt for overholdelse
- Bruk robuste OCR-innstillinger for best gjenkjennelse
Beste praksis
- Bruk samme OCR og skanne innstillinger i alle versjoner
- Validerer differ på kritiske/høyrisiko-dokumenter
- Log og backup alle rapporter
- Automatisk vanlig versjon sammenligning for nøkkeldokumenter
Avanserte scenarier
Scenario 1: Utvikle forskjeller i visuell utgang
Generere noterte PDF-er/bilder som fremhever oppdagede tekstendringer for juridiske lag.
Scenario 2: Automatisk melding av kritiske endringer
Send en melding/e-post hvis en viktig juridisk klausul er lagt til / fjernet.
Conclusion
ASPOSE.OCR Image Text Finder for .NET gjør det mulig å sammenligne automatiserte, skalerbare og auditerbare dokumentversjoner – slik at juridiske, forretnings- og overholdelsesgrupper kan oppdage kritiske endringer i skannede filer.
For mer avansert sammenligning av arbeidsflyter, se Aspose.OCR for .NET API Referanse .