Како упоредити текстуалне верзије кроз документе користећи .NET
Упоређивање текста између различитих скенираних верзија уговора, обрасца или пословних докумената је од суштинског значаја за правни преглед и поштовање.Аппосе.ОЦР Имиџ Тест Фендер за .НЕТ поједноставља процес аутоматским извлачењем и поређењем текста из више слика.
Реал светски проблем
Ручни преглед промена верзије је споран, склони људским грешкама, а не скалисани – посебно када се баве многим ревизијама докумената или правним уговорима.
Преглед решења
Аутоматизирајте поређење извлачењем текста из две или више скенираних слика, а затим користите диф логику да бисте истакли и регистровали текстуалне промене.
Принципи
- Visual Studio 2019 или касније
- .NET 6.0 или новији (или .Net Framework 4.6.2+)
- Aspose.OCR za .NET od NuGet
PM> Install-Package Aspose.OCR
Корак по корак спровођење
Корак 1: Припремите верзије документа
string original = "contract_v1.png";
string revised = "contract_v2.png";
Корак 2: Препознавање и извлачење текста из слика
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Корак 3: Поређење текста и наглашавање разлике
Користите текстуалну диф/поређење библиотеку (на пример, ДифПлекс, уграђена логика) да бисте пронашли разлике:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Корак 4: Резултати лога и извоза поређења
- Сачувајте промене у ЦСВ, дневним датотекама или људско-читаним диф извештајима
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Корак 5: Батцх или аутоматски контрола верзије
- Поређење свих верзија у фасциклу, аутоматски ако је потребно
Корак 6: Потпуни пример
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Коришћење случајева и апликација
Правни и правни преглед
Брзо приметити промене у скенираним уговорима, политикама или споразумима.
Аудит пословног процеса
Одређивање неовлашћених или неодређених уређаја у дигиталним архивима.
Аутоматизација управљања документима
Држите комплетну ревизију свих промена у скенираним верзијама документа.
Заједнички изазови и решења
Проблем 1: Мање форматирање или ОЦР грешке
Решење: Направите подешавања, извршите секундарну ручну ревизију о означеним променама.
Izazov 2: Veliki dokumenti
Решење: Аутоматизује и паралелизује, региструје све резултате за ефикасну ревизију.
Проблем 3: Фалсификовани позитивни / негативни
Решење: Рефинирајте диф алгоритам, валидирајте производњу са реалним узорцима.
Размишљање о перформанси
- Диф логика може бити спора на великим документима – мониторинг и оптимизација
- Складиштење свих диф извештаја безбедно за поштовање
- Користите јаке подешавања ОЦР-а за најбоље препознавање
Најбоља пракса
- Користите исти ОЦР и скенирање подешавања у свим верзијама
- Validacija difsa na kritičnim/visokim dokumentima
- Пријавите се и резервишете све извештаје
- Аутоматско поређење редовне верзије за кључне документе
Напредни сценарио
Сценарио 1: Показати разлике у визуелном излазу
Направите пријављене ПДФ / слике које наглашавају откривене промене у тексту за правне тимове.
Сценарио 2: Аутоматско обавештење о критичним променама
Пошаљите обавештење / е-маил ако је важна правна клауза додата / уклоњена.
Закључак
Aspose.OCR Image Text Finder za .NET omogućava automatizovan, skalabilan i audibilan usporedbu verzije dokumenta – omogućavajući pravnim, poslovnim i usklađenim timovima da otkriju kritične promene u skeniranim datotekama.
Za naprednije usporedbe tokova rada, pogledajte Aspose.OCR за .NET API референце .