Kā salīdzināt tekstu ar dokumentu versijām, izmantojot .NET
Teksta salīdzināšana starp dažādām līgumu, veidlapas vai biznesa dokumentu skenētajām versijām ir svarīga juridiskajai pārskatīšanai un atbilstībai.Aspose.OCR Image Text Finder for .NET vienkāršo procesu, automātiski iegūstot un salīdzinot tekstu no vairākiem attēliem.
Reālā pasaules problēma
Versijas izmaiņu rokasgrāmata ir lēna, pakļauta cilvēka kļūmēm, un nav skalējama - it īpaši, kad tiek veikti daudzi dokumentu pārskatījumi vai juridiskie līgumi.
Risinājumu pārskats
Automatizējiet salīdzinājumu, iegūstot tekstu no divām vai vairākām skenētajām attēliem, pēc tam izmantojot dif loģiku, lai uzsvertu un ierakstītu teksta izmaiņas.
Prerequisites
- Visual Studio 2019 vai vēlāk
- .NET 6.0 vai jaunāks (vai .Net Framework 4.6.2+)
- Aspose.OCR par .NET no NuGet
PM> Install-Package Aspose.OCR
Step-by-step īstenošana
1. posms: Dokumentu versijas sagatavošana
string original = "contract_v1.png";
string revised = "contract_v2.png";
2. solis: Atzīt un izņemt tekstu no attēliem
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
3. solis: salīdziniet tekstu un piebildiet atšķirības
Izmantojiet teksta dif/komparācijas bibliotēku (piemēram, DiffPlex, iebūvēta loģika), lai konstatētu atšķirības:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
4. solis: Norēķinu un eksporta salīdzināšanas rezultāti
- Ievadiet izmaiņas CSV, log failā vai cilvēka lasāmā dif ziņojumā
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
5. solis: Batch vai automātiskā versijas vadība
- Salīdziniet visas versijas mapē, automātiski pēc nepieciešamības
6. solis: pilns piemērs
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Izmantojiet gadījumus un pieteikumus
Juridiskā un atbilstības pārbaude
Ātri pamanīt izmaiņas skenētajos līgumos, politikās vai nolīgumos.
Biznesa procesa revīzija
Atklājiet neatļautus vai neuzticamus rediģējumus digitālajos arhīvos.
Dokumentu vadības automatizācija
Saglabājiet pilnīgu visu izmaiņu revīzijas pusi skenēto dokumentu versijās.
Kopīgi izaicinājumi un risinājumi
1. izaicinājums: maza formātāšanās vai OCR kļūdas
Rīkojums: Izveidojiet iestatījumus, izpildiet sekundāro manuālo pārskatu par apzīmētām izmaiņām.
2. izaicinājums: Lieli dokumentu komplekti
Rīze: Automātiski un paralēli, visu rezultātu ierakstiet efektīvai revīzijai.
3. izaicinājums: nepatiesi pozitīvi / negatīvi
Rīze: Refinē dif algoritmu, validē rezultātu ar reālajiem paraugiem.
Darbības apsvērumi
- Diff loģika var būt lēna lielos dokumentos – monitoring un optimizācija
- Uzglabāt visus dif ziņojumus droši atbilstības nolūkā
- Izmantojiet spēcīgus OCR iestatījumus, lai iegūtu labāko atpazīstamību
Labākās prakses
- Izmantojiet tos pašus OCR un skenēšanas iestatījumus visās versijās
- Validējiet difus kritiskajiem / augsta riska dokumentiem
- Lejupielādēt un atjaunot visus ziņojumus
- Automātiska regulāra versijas salīdzināšana par atslēgvārdu dokumentiem
Augstākie scenāriji
1. scenārijs: Vizuālā iznākuma atšķirības
Iegūstiet ierakstītus PDF / attēlus, kas norāda uz atklātām teksta izmaiņām juridiskajām komandām.
2. scenārijs: Automātiskā paziņošana par kritiskām izmaiņām
Sūtiet brīdinājumu/e-pastu, ja ir pievienota/izņemta svarīga juridiskā klauzula.
Conclusion
Aspose.OCR Image Text Finder for .NET ļauj automātiski, skalējams un auditatīvs dokumentu versijas salīdzinājums – ļauj juridiskām, biznesa un atbilstības komandām atklāt kritiskas izmaiņas skenētajos failos.
Lai uzlabotu darba plūsmu salīdzināšanu, skatiet Aspose.OCR par .NET API atsauci .