Kuinka verrata tekstiä asiakirjan kautta .NET-versioita
Sopimusten, lomakkeiden tai liiketoimintaasiakirjojen eri skannattujen versioiden tekstin vertaileminen on ratkaisevan tärkeää laillisen tarkastelun ja noudattamisen kannalta. Aspose.OCR Image Text Finder for .NET yksinkertaistaa prosessia automaattisesti poimalla ja vertaamalla tekstiä useista kuvista.
Reaalimaailman ongelma
Versiota koskevien muutosten manuaalinen tarkastelu on hidasta, alttiita ihmisen virheeseen ja epätasapainoista – varsinkin kun käsitellään monia asiakirjojen tarkistuksia tai oikeudellisia sopimuksia.
Ratkaisun yleiskatsaus
Automaattisesti vertailun poistamalla tekstiä kahdesta tai useammasta skannatuista kuvista, sitten käyttämällä diff logiikkaa korostamaan ja kirjaamaan tekstimuutoksia.
edellytykset
- Visual Studio 2019 tai uudempi
- .NET 6.0 tai uudempi (tai .Net Framework 4.6.2+)
- ASPOSE.OCR for .NET alkaen NuGet
PM> Install-Package Aspose.OCR
Vaiheittainen toteutus
Vaihe 1: Valmista dokumenttiversioita
string original = "contract_v1.png";
string revised = "contract_v2.png";
Vaihe 2: Tunnista ja poista teksti kuvista
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
Vaihe 3: Vertaile tekstiä ja korosta eroja
Käytä tekstidiff/vertailu kirjastoa (esim. DiffPlex, sisäänrakennettu logiikka) erottavaksi:
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
Console.WriteLine($"{line.Type}: {line.Text}");
}
Vaihe 4: Rekisteröinti ja viennin vertailutulokset
- Tallenna muutokset CSV: ssä, log-tiedostoon tai ihmiselle luettavissa olevaan diff-raportointiin
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
Vaihe 5: Batch tai automaattinen versiohallinta
- Vertaile kaikkia versioita kansiossa, automaattisesti tarvittaessa
Vaihe 6: Täydellinen esimerkki
using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;
class Program
{
static void Main(string[] args)
{
string original = "contract_v1.png";
string revised = "contract_v2.png";
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
if (line.Type != ChangeType.Unchanged)
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
}
}
}
Käytä tapauksia ja sovelluksia
Oikeudellinen ja vaatimustenmukaisuus tarkastelu
Nopeasti havaita tarkistettujen sopimusten, politiikkojen tai sopimusten muutokset.
Liiketoimintaprosessin tilintarkastus
Tutustu luvattomiin tai hyväksymättömiin muokkauksiin digitaalisissa arkistoissa.
Automaattinen dokumentinhallinta
Pidä täydellinen tarkastusjälki kaikista muutoksista skannattujen asiakirjojen versioiden läpi.
Yhteiset haasteet ja ratkaisut
Haaste 1: Pienempi muotoilu tai OCR virheet
** Ratkaisu:** Tune asetukset, suorittaa toissijainen manuaalinen tarkastelu merkittyjä muutoksia.
Haaste 2: Suuret asiakirjat
** Ratkaisu:** Automaattinen ja rinnakkainen, kaikki tulokset tallennetaan tehokkaalle tarkastukselle.
Haaste 3: Väärät positiiviset / negatiiviset
** Ratkaisu:** Korjaa diff-algoritmi, validoi tuloksen reaaliaikaisilla näytöillä.
suorituskyvyn huomioon ottaminen
- Diff logiikka voi olla hidas suurilla asiakirjoilla – tarkkailu ja optimointi
- Säilytä kaikki diff-raportit turvallisesti vaatimustenmukaisuuden vuoksi
- Käytä kestäviä OCR-asetuksia parhaan tunnistuksen varmistamiseksi
Parhaat käytännöt
- Käytä samaa OCR- ja skannausasetuksia kaikissa versioissa
- Kriittisten / korkean riskin asiakirjojen validointi
- Lataa ja tallenna kaikki raportit
- Automaattinen säännöllinen versio vertailua avainasiakirjoille
Edistyneet skenaariot
Käsikirja 1: Visuaalisen tuloksen erot
Luo merkittyjä PDF-tiedostoja/kuvia, jotka korostavat havaitut tekstin muutokset oikeudellisille tiimille.
Skenaario 2: Kriittisten muutosten automaattinen ilmoittaminen
Lähetä ilmoitus/e-mail, jos tärkeä laillinen lauseke on lisätty/ poistettu.
johtopäätöksiä
ASPOSE.OCR Image Text Finder for .NET mahdollistaa automaattisen, skaalattavan ja tarkastettavan asiakirjan versioiden vertailun, jonka avulla oikeudelliset, liiketoiminnalliset ja vaatimustenmukaisuusryhmät voivat havaita skannattujen tiedostojen kriittisiä muutoksia.
Edistyksellisempi vertailun työnkulut, katso ASPOSE.OCR .NET API-referenssille .