Πώς να συγκρίνετε τις εκδόσεις κειμένου μέσω εγγράφου χρησιμοποιώντας .NET

Πώς να συγκρίνετε τις εκδόσεις κειμένου μέσω εγγράφου χρησιμοποιώντας .NET

Η σύγκριση κειμένου μεταξύ διαφόρων σάρωσης εκδόσεων συμβάσεων, φόρμας ή επιχειρηματικών εγγράφων είναι κρίσιμη για τη νομική επανεξέταση και συμμόρφωση. το Aspose.OCR Image Text Finder για .NET απλοποιεί τη διαδικασία με την αυτόματη εξόρυξη και συγκριτική κείμενο από πολλαπλές εικόνες.

Το πρόβλημα του πραγματικού κόσμου

Η χειροκίνητη αναθεώρηση των αλλαγών της έκδοσης είναι αργή, ευάλωτη σε ανθρώπινα λάθη και δεν είναι κλιμακώδης - ειδικά όταν ασχολούνται με πολλές επισκόπηση εγγράφων ή νομικές συμβάσεις.

Συνοπτική λύση

Αυτοματοποιήστε τη σύγκριση με την εξαγωγή κειμένου από δύο ή περισσότερες σαρωμένες εικόνες, στη συνέχεια χρησιμοποιώντας τη λογική diff για να υπογραμμίσετε και να καταγράψετε τις αλλαγές στο κείμενο.

Προϋποθέσεις

  • Visual Studio 2019 ή αργότερα
  • .NET 6.0 ή μεταγενέστερος (ή .Net Framework 4.6.2+)
  • Aspose.OCR για .NET από το NuGet
PM> Install-Package Aspose.OCR

Βήμα προς βήμα εφαρμογή

Βήμα 1: Προετοιμάστε τις εκδόσεις των εγγράφων

string original = "contract_v1.png";
string revised = "contract_v2.png";

Βήμα 2: Αναγνώριση και εξαγωγή κειμένου από τις εικόνες

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;

Βήμα 3: Συγκρίνετε το κείμενο και τονίζετε τις διαφορές

Χρησιμοποιήστε μια βιβλιοθήκη κειμένου diff/compare (π.χ. DiffPlex, ενσωματωμένη λογική) για να εντοπίσετε τις διαφορές:

using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;

var diffBuilder = new InlineDiffBuilder(new Differ());
var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
foreach (var line in diff.Lines)
{
    if (line.Type != ChangeType.Unchanged)
        Console.WriteLine($"{line.Type}: {line.Text}");
}

Βήμα 4: Συγκριτικά αποτελέσματα καταχώρισης και εξαγωγής

  • Αποθηκεύστε τις αλλαγές στο CSV, το αρχείο καταγραφής ή την αναφορά diff που μπορεί να διαβάσει ο άνθρωπος
// Example: Write all changes to a report
File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");

Βήμα 5: Batch ή αυτόματο έλεγχο έκδοσης

  • Συγκρίνετε όλες τις εκδόσεις σε ένα φάκελο, αυτόματα όπως χρειάζεται

Βήμα 6: Συμπληρωματικό παράδειγμα

using Aspose.OCR;
using DiffPlex;
using DiffPlex.DiffBuilder;
using DiffPlex.DiffBuilder.Model;
using System;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string original = "contract_v1.png";
        string revised = "contract_v2.png";
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        string originalText = ocr.Recognize(new OcrInput(InputType.SingleImage) { original }, settings)[0].RecognitionText;
        string revisedText = ocr.Recognize(new OcrInput(InputType.SingleImage) { revised }, settings)[0].RecognitionText;
        var diffBuilder = new InlineDiffBuilder(new Differ());
        var diff = diffBuilder.BuildDiffModel(originalText, revisedText);
        foreach (var line in diff.Lines)
        {
            if (line.Type != ChangeType.Unchanged)
                File.AppendAllText("text_diff_report.txt", $"{line.Type}: {line.Text}\n");
        }
    }
}

Χρήση περιπτώσεων και εφαρμογών

Νομική και Συμμόρφωση Αναθεώρηση

Γρήγορα εντοπίζουν τις αλλαγές σε σάρωση συμβάσεις, πολιτικές ή συμφωνίες.

Ελέγχου επιχειρηματικών διαδικασιών

Ανακαλύψτε μη εξουσιοδοτημένες ή μη εγκεκριμένες εκδόσεις στα ψηφιακά αρχεία.

Διαχείριση εγγράφων αυτοματισμού

Διατηρήστε μια πλήρη πορεία ελέγχου όλων των αλλαγών σε σάρωση εκδόσεις εγγράφου.

Κοινές προκλήσεις και λύσεις

Πρόκληση 1: Μικρά σφάλματα διαμόρφωσης ή OCR

Λύση: Δοκιμάστε τις ρυθμίσεις, εκτελέστε δευτερεύοντα εγχειρίδια επανεξέτασης για τις αλλαγές που εμφανίζονται.

Δοκιμή 2: Μεγάλο σύνολο εγγράφων

Λύση: Αυτόματη και παράλληλη, καταχωρίστε όλα τα αποτελέσματα για αποτελεσματικό έλεγχο.

Προκλήσεις 3: ψευδείς θετικές / αρνητικές

Λύση: Ανακαλύψτε το αλγόριθμο diff, επικυρώστε την παραγωγή με δείγματα πραγματικού κόσμου.

Αξιολόγηση των επιδόσεων

  • Η λογική Diff μπορεί να είναι αργή σε μεγάλα έγγραφα – παρακολούθηση και βελτιστοποίηση
  • Αποθηκεύστε όλες τις αναφορές diff με ασφάλεια για συμμόρφωση
  • Χρησιμοποιήστε ισχυρές ρυθμίσεις OCR για την καλύτερη αναγνώριση

שיטות עבודה מומלצות

  • Χρησιμοποιήστε τις ίδιες ρυθμίσεις OCR και Scan σε όλες τις εκδόσεις
  • Εξυγίανση απορρήτου σε κρίσιμα / υψηλού κινδύνου έγγραφα
  • Συνδεθείτε και αποθηκεύστε όλες τις αναφορές
  • Αυτόματη σύγκριση τακτικής έκδοσης για βασικά έγγραφα

Προχωρημένα σενάρια

Σενάριο 1: Εντοπιστεί η διαφορά στην οπτική απόδοση

Δημιουργήστε σημειωμένα PDF / εικόνες που υπογραμμίζουν τις αναγνωρισμένες αλλαγές κειμένου για νομικές ομάδες.

Σενάριο 2: Αυτόματη κοινοποίηση κρίσιμων αλλαγών

Στείλτε ειδοποίηση/εγγραφή ηλεκτρονικού ταχυδρομείου εάν προστίθεται/αποκαλείται σημαντική νομική ρήτρα.

Συμπεράσματα

Το Aspose.OCR Image Text Finder για το .NET επιτρέπει την αυτοματοποιημένη, κλιμάκωση και αξιολόγηση της έκδοσης του εγγράφου, επιτρέποντας στις ομάδες νομικής, επιχειρηματικής και συμμόρφωσης να εντοπίζουν κρίσιμες αλλαγές στα σάρωση αρχείων.

Για πιο προηγμένες συγκριτικές ροές εργασίας, δείτε Aspose.OCR για την αναφορά .NET API .

 Ελληνικά