Kaip palyginti tekstą per dokumentų versijas naudojant .NET
Palyginti tekstą tarp skirtingų skanintų sutarčių, formų ar verslo dokumentų versijų yra labai svarbu teisiniam peržiūrimui ir laikymui. „Aspose.OCR Image Text Finder for .NET“ supaprastina procesą automatiškai ištraukiant ir palyginant tekstus iš kelių vaizdų.
Realaus pasaulio problemos
Versijos pakeitimų rankiniu būdu peržiūra yra lėta, linkusi į žmogišką klaidą ir ne skalinga – ypač kai tvarkomi daug dokumentų peržiūrų ar teisinių sutarčių.
Sprendimo apžvalga
Automatizuokite palyginimą, ištraukiant tekstą iš dviejų ar daugiau skenuojamų vaizdų, tada naudokite dif logiką, kad pabrėžtumėte ir įrašytumėte tekstinius pokyčius.
Prerequisites
- „Visual Studio 2019“ arba vėliau
- .NET 6.0 arba naujesnė (arba .Net Framework 4.6.2+)
- ASPOSE.OCR už .NET iš NuGet
PM> Install-Package Aspose.OCR
Žingsnis po žingsnio įgyvendinimas
1 žingsnis: paruoškite dokumentų versijas
string original = "contract_v1.png";
string revised = "contract_v2.png";
2 žingsnis: atpažinti ir ištraukti tekstą iš nuotraukų
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
3 žingsnis: Palyginti tekstą ir pabrėžti skirtumus
Naudokite teksto dif / palyginti biblioteką (pavyzdžiui, DiffPlex, integruota logika), kad nustatytumėte skirtumus:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
4 žingsnis: registracijos ir eksporto palyginimo rezultatai
- Išsaugokite pakeitimus į CSV, log failą arba žmogui skaityti dif ataskaitą
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
5 žingsnis: „Batch“ arba „Automatic Version Control“
- Palyginkite visas versijas vienoje aplinkoje, automatiškai, kaip reikia
6 žingsnis: išsami pavyzdys
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Naudokite atvejus ir paraiškas
Teisės ir atitikties apžvalga
Greitai pastebėti skanintų sutarčių, politikos ar susitarimų pokyčius.
Verslo proceso auditas
Atkreipkite dėmesį į neautorizuotas ar nepriimtinas redakcijas skaitmeniniuose archyvuose.
Dokumentų valdymo automatizavimas
Atlikite išsamią visų pakeitimų per skenuojamus dokumentų versijas audito pėdsaką.
Bendrieji iššūkiai ir sprendimai
1 iššūkis: nedidelis formatavimas arba OCR klaidos
Išsprendimas: Paspauskite nustatymus, atlikite antrinį rankų peržiūrą dėl pažymėtų pakeitimų.
Iššūkis 2: didelis dokumentų rinkinys
Išsprendimas: Automatiškai ir lygiagrečiai, įrašykite visus rezultatus efektyviam auditui.
Iššūkis 3: klaidingos pozityvios / neigiamos
Išsprendimas: Atnaujinkite dif algoritmą, patvirtinkite gamybą su realaus pasaulio pavyzdžiais.
Veiksmingumo apžvalgos
- Dif logika gali būti lėta dideliuose dokumentuose – stebėti ir optimizuoti
- Saugiai saugoti visus dif ataskaitas, kad būtų laikomasi
- Naudokite tvirtas OCR nustatymus, kad būtų galima geriau atpažinti
Geriausios praktikos
- Naudokite tuos pačius OCR ir skenavimo nustatymus visose versijose
- Kritinių / aukštos rizikos dokumentų patvirtinimas
- Prisijunkite ir atsisiųskite visus pranešimus
- Automatinis reguliarios versijos palyginimas pagrindiniams dokumentams
Išplėstiniai scenarijai
1 scenarijus: akivaizdžių rezultatų skirtumai
Sukurkite įrašytus PDF / vaizdus, kurie pabrėžia aptiktų teksto pokyčių teisinėms komandoms.
2 scenarijus: Automatinis pranešimas apie kritinius pokyčius
Siųskite pranešimą / el. Laišką, jei pridedama / pašalinama svarbi teisinė sąlyga.
Conclusion
ASPOSE.OCR Image Text Finder for .NET leidžia automatizuotą, skalavimą ir audituojamą dokumentų versijos palyginimą, leidžiančią teisinėms, verslo ir atitikties komandoms aptikti kritinius skanintų failų pokyčius.
Dėl pažangesnių darbo srautų palyginimo, žr. ASPOSE.OCR už .NET API nuorodą .