Πώς να ανιχνεύσετε την ομοιότητα του κειμένου και το plagiarism στις εικόνες

Πώς να ανιχνεύσετε την ομοιότητα του κειμένου και το plagiarism στις εικόνες

Η ανίχνευση παρόμοιας ή πληγείσας κειμένου σε σαρωμένες εικόνες είναι σημαντική για την ακαδημαϊκή ακεραιότητα, την αναθεώρηση περιεχομένου και την νομική προστασία.Το Aspose.OCR Image Text Finder για .NET επιτρέπει την ανιχνεύση παρενόχλησης περιεχόμενου σε αρχεία ή σύνολα εγγράφων.

Το πρόβλημα του πραγματικού κόσμου

Η χειροκίνητη ανίχνευση διπλού ή αντιγραφόμενου κειμένου σε σαρωμένες εικόνες είναι αναποτελεσματική και ελαττωματική.Η αυτόματη σύγκριση OCR επιτρέπει την κλίμακα και την επαναληπτικότητα για ακαδημαϊκές, επιχειρηματικές ή νομικές ανάγκες.

Συνοπτική λύση

Εξάγετε κείμενο από κάθε εικόνα και συγκρίνετε το με ένα σώμα ή στόχο για υψηλή ομοιότητα. σημαία και αναφορά ύποπτων αγώνων για αναθεώρηση ή παρακολούθηση.

Προϋποθέσεις

  • Visual Studio 2019 ή αργότερα
  • .NET 6.0 ή μεταγενέστερος (ή .Net Framework 4.6.2+)
  • Aspose.OCR για .NET από το NuGet
PM> Install-Package Aspose.OCR

Βήμα προς βήμα εφαρμογή

Βήμα 1: Προετοιμάστε τις εικόνες σας

string[] archiveFiles = Directory.GetFiles("./archive", "*.png");
string[] submissionFiles = Directory.GetFiles("./submissions", "*.png");

Βήμα 2: Εξαγωγή κειμένου από τις εικόνες

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
Dictionary<string, string> archiveTexts = new Dictionary<string, string>();
foreach (string file in archiveFiles)
{
    string text = ocr.Recognize(new OcrInput(InputType.SingleImage) { file }, settings)[0].RecognitionText;
    archiveTexts[file] = text;
}

Βήμα 3: Συγκρίνετε για ομοιότητες ή διπλότητα

Χρησιμοποιήστε μια απλή λειτουργία ομοιότητας κειμένου (π.χ. η απόσταση Levenshtein, ο δείκτης Jaccard) ή ένα πακέτο .NET για να ταιριάζει με το fuzzy:

foreach (string subFile in submissionFiles)
{
    string subText = ocr.Recognize(new OcrInput(InputType.SingleImage) { subFile }, settings)[0].RecognitionText;
    foreach (var kvp in archiveTexts)
    {
        double similarity = JaccardSimilarity(subText, kvp.Value); // custom function or library
        if (similarity > 0.8) // Tune threshold for your needs
        {
            File.AppendAllText("plagiarism_log.csv", $"{subFile},{kvp.Key},{similarity}\n");
        }
    }
}

// Example Jaccard similarity (token-based)
double JaccardSimilarity(string text1, string text2)
{
    var set1 = new HashSet<string>(text1.Split());
    var set2 = new HashSet<string>(text2.Split());
    int intersect = set1.Intersect(set2).Count();
    int union = set1.Union(set2).Count();
    return (double)intersect / union;
}

Βήμα 4: Λογαριασμός και αναθεώρηση αποτελεσμάτων

  • Εξαγωγή ύποπτων αγώνων για ανθρώπινη ή ακαδημαϊκή / νομική επανεξέταση

Βήμα 5: Συμπληρωματικό παράδειγμα

using Aspose.OCR;
using System;
using System.Collections.Generic;
using System.IO;

class Program
{
    static void Main(string[] args)
    {
        string[] archiveFiles = Directory.GetFiles("./archive", "*.png");
        string[] submissionFiles = Directory.GetFiles("./submissions", "*.png");
        RecognitionSettings settings = new RecognitionSettings();
        settings.Language = Language.English;
        AsposeOcr ocr = new AsposeOcr();
        Dictionary<string, string> archiveTexts = new Dictionary<string, string>();
        foreach (string file in archiveFiles)
            archiveTexts[file] = ocr.Recognize(new OcrInput(InputType.SingleImage) { file }, settings)[0].RecognitionText;
        foreach (string subFile in submissionFiles)
        {
            string subText = ocr.Recognize(new OcrInput(InputType.SingleImage) { subFile }, settings)[0].RecognitionText;
            foreach (var kvp in archiveTexts)
            {
                double sim = JaccardSimilarity(subText, kvp.Value);
                if (sim > 0.8)
                    File.AppendAllText("plagiarism_log.csv", $"{subFile},{kvp.Key},{sim}\n");
            }
        }
    }
    static double JaccardSimilarity(string text1, string text2)
    {
        var set1 = new HashSet<string>(text1.Split());
        var set2 = new HashSet<string>(text2.Split());
        int intersect = set1.Intersect(set2).Count();
        int union = set1.Union(set2).Count();
        return (double)intersect / union;
    }
}

Χρήση περιπτώσεων και εφαρμογών

Η ακαδημαϊκή ακεραιότητα και η ανίχνευση του πλαγιάριου

Εμφάνιση υποβολών φοιτητών για αντιγραφόμενο περιεχόμενο έναντι αρχειοθετημένων πηγών.

Νομική και Σύμβαση Αναθεώρηση

Ανακαλύψτε την επαναχρησιμοποίηση ή αντιγραφή της συμβατικής γλώσσας σε νόμιμα scanned docs.

Διαφήμιση περιεχομένου και μέσων ενημέρωσης

Αναγνώριση διπλής ή μη εξουσιοδοτημένης επαναχρησιμοποίησης κειμένου στις δημιουργικές βιομηχανίες.

Κοινές προκλήσεις και λύσεις

Πρόκληση 1: Λάθη αναγνώρισης OCR

Λύση: Χρησιμοποιήστε υψηλής ποιότητας σαρώσεις και όρια ομοιότητας τόνου.

Δοκιμή 2: Μεγάλο αρχείο

Λύση: Προ-εμφάνιση ή διαδικασία συσκευασίας, παράλληλη αν είναι απαραίτητο.

Πρόκληση 3: Γλώσσα ή διατύπωση παραλλαγές

Λύση: Ομαλοποιήστε το κείμενο (από κάτω, αφαιρέστε τα stopwords), επεξεργαστείτε ανά σύνολο γλώσσας.

Αξιολόγηση των επιδόσεων

  • Οι υπολογισμοί ομοιότητας κειμένου είναι υπολογιστική ένταση για τα μεγάλα σύνολα - συλλογή και χρονοδιάγραμμα
  • Εγγραφή όλων των αποτελεσμάτων για αναθεώρηση και έλεγχο

שיטות עבודה מומלצות

  • Επιβεβαιώστε τα αποτελέσματα με εγχειρίδιο ή κριτική επιτροπής
  • Το όριο της ομοιότητας για την ακρίβεια εναντίον ψευδών θετικών
  • Αρχείο όλων των λογαριασμών για συμμόρφωση και έλεγχο
  • Χρησιμοποιήστε δομημένη τυποποίηση κειμένου

Προχωρημένα σενάρια

Σενάριο 1: Εμφάνιση Παρόμοιων αποτελεσμάτων

Δημιουργήστε χάρτες ή γραφικά από το CSV σας χρησιμοποιώντας τα εργαλεία του Excel ή του BI.

Σενάριο 2: Ενσωμάτωση API για τη σάρωση υποβολής σε πραγματικό χρόνο

Παρακολουθήστε τις εικόνες όταν ανεβάζετε και παρέχετε άμεση ανατροφοδότηση ομοιότητας.

Συμπεράσματα

Το Aspose.OCR Image Text Finder για το .NET επιτρέπει την κλιμακούμενη, αυτοματοποιημένη ανίχνευση παρόμοιας ή πλουσιωμένου περιεχομένου στις εικόνες – απαραίτητη για τις ακαδημαϊκές, νομικές και δημοσιευτικές ροές εργασίας.

See Aspose.OCR για την αναφορά .NET API Για πιο προηγμένη σύγκριση και αναζήτηση APIs.

 Ελληνικά