Hogyan lehet összehasonlítani a szöveget a dokumentum verziók segítségével .NET
A szerződések, űrlapok vagy üzleti dokumentumok különböző szkennelt változatai közötti szöveg összehasonlítása alapvető fontosságú a jogi felülvizsgálat és a betartás szempontjából.A Aspose.OCR Image Text Finder for .NET automatikusan szűkíti a folyamatot a több képből származó szöveg kivonásával és hasonlításával.
Valódi problémák
A változások kézi felülvizsgálata lassú, emberi hibákra hajlamos, és nem skálázható – különösen a dokumentumok vagy a jogi szerződések sokaságának kezelésekor.
megoldás áttekintése
Automatizálja az összehasonlítást a két vagy több szkennelt képből származó szöveg kivonásával, majd diff logikával hangsúlyozza és rögzíti a szöveges változásokat.
előfeltételek
- Visual Studio 2019 vagy újabb
- .NET 6.0 vagy újabb (vagy .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET a NuGet-ről
PM> Install-Package Aspose.OCR
lépésről lépésre megvalósítás
1. lépés: Dokumentációs verziók készítése
string original = "contract_v1.png";
string revised = "contract_v2.png";
2. lépés: A szöveg felismerése és kivonása a képekből
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
3. lépés: Összehasonlítsa a szöveget és kiemeli a különbségeket
Használjon egy diff/összehasonlító könyvtárat (pl. DiffPlex, beépített logika) a különbségek azonosításához:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
4. lépés: Log és export összehasonlítás eredményei
- CSV, naplófájl vagy emberi olvasható diff-jelentés változásainak mentése
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
5. lépés: Batch vagy automatikus verzió vezérlés
- Összehasonlítsa az összes verziót egy mappában, szükség szerint automatizálva
6. lépés: Teljes példa
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Esetek és alkalmazások használata
Jogi és megfelelőségi felülvizsgálat
Gyorsan észleli a szkennelt szerződésekben, politikákban vagy megállapodásokban bekövetkező változásokat.
Üzleti folyamatok ellenőrzése
Nem engedélyezett vagy nem jóváhagyott szerkesztések felismerése a digitális archívumokban.
Dokumentummenedzsment automatizálás
Tartsa az összes változás teljes ellenőrzési nyomát a szkennelt dokumentum verzióin keresztül.
Közös kihívások és megoldások
1. kihívás: kisebb formázási vagy OCR hibák
** Megoldás:** A beállításokat törölje, másodlagos kézi felülvizsgálatot végez a megjelölt változásokra.
2. kihívás: Nagy dokumentumkészletek
** Megoldás:** Automatizáljuk és párhuzamosítjuk az összes eredményt a hatékony audithoz.
3. kihívás: hamis pozitív / negatív
** Megoldás:** Refine diff algoritmus, validálja a kimenetet valós világ mintákkal.
A teljesítmény megfontolása
- A Diff logika lassú lehet a nagy dokumentumokon - monitorozza és optimalizálja
- Az összes diff jelentést biztonságosan tárolja a megfelelés érdekében
- Használjon robusztus OCR beállításokat a legjobb felismeréshez
Legjobb gyakorlatok
- Használja ugyanazt az OCR-t és a szkennelési beállításokat minden verzióban
- A kritikus/magas kockázatú dokumentumok ellenőrizése
- Regisztráljon és mentse fel az összes jelentést
- Automatikus rendszeres verzió összehasonlítása kulcsfontosságú dokumentumokhoz
fejlett forgatókönyvek
1. forgatókönyv: A vizuális kimenetel közötti különbségek kiemelkedése
Hozzon létre feljegyzett PDF-eket/képeket, amelyek hangsúlyozzák az észlelt szövegváltozásokat a jogi csapatok számára.
2. forgatókönyv: A kritikus változások automatikus értesítése
Hívjon értesítést / e-mailt, ha a fontos jogi záradék hozzáadódik / törlődik.
következtetések
Az ASPOSE.OCR Image Text Finder for .NET lehetővé teszi az automatizált, skálázható és hitelesített dokumentum verzió összehasonlítását – ezáltal a jogi, üzleti és megfelelőségi csapatok észlelhetik a szkennelt fájlok kritikus változását.
A fejlett munkafolyamatok összehasonlításához lásd: Az ASPOSE.OCR a .NET API referenciájához .