Come trovare e confrontare il testo nelle immagini con Aspose.OCR

Come trovare e confrontare il testo nelle immagini con Aspose.OCR

La ricerca o la confrontazione del testo all’interno delle immagini è essenziale per la conformità, gli archivi digitali e la classificazione automatica. Aspose.OCR Image Text Finder per .NET consente di identificare, cercare e confrontare il testo dell’immagine con precisione - attraverso una serie di casi di utilizzo dalla rilevazione PII alla revisione legale.

Il problema del mondo reale

Le aziende spesso hanno bisogno di cercare contenuti sensibili, verificare le firme o confrontare il testo tra diverse versioni di file di immagine.I controlli manuali sono lenti e non affidabili, specialmente per grandi archivi digitali o set di documenti.

Soluzione Overview

Con Aspose.OCR, è possibile cercare testo o modelli specifici (utilizzando righe o regex) all’interno delle immagini, e confrontare il contenuto testo di due immagini per individuare le differenze.

Prerequisiti

Avrai bisogno di:

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
  • Le competenze C#
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

Aggiungi il pacchetto e gli spazi di nome richiesti:

using Aspose.OCR;

Passo 2: Prepara i tuoi file di immagine

Configurare le immagini che si desidera cercare o confrontare.

string img1 = "document1.png";
string img2 = "document2.jpg";

Passo 3: Configurare le opzioni di ricerca e confronto

Configurare le impostazioni per la ricerca di testo (string o regex) e la comparazione.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English; // Adjust as needed

Passo 4: Cerca il testo in un’immagine

Utilizzare il ImageHasText Metodo per la ricerca di testo veloce e flessibile (support stringhe e regex):

AsposeOcr ocr = new AsposeOcr();
bool isFound = ocr.ImageHasText(img1, "Confidential", settings); // String search
Console.WriteLine($"Text found: {isFound}");

// Regex search example:
bool regexFound = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // e.g., US SSN pattern
Console.WriteLine($"Regex found: {regexFound}");

Passo 5: Confronta il testo di due immagini

Utilizzo CompareImageTexts Scopri le differenze nel contenuto testo:

int similarity = ocr.CompareImageTexts(img1, img2, settings, true); // true = case-insensitive
Console.WriteLine($"Image text similarity: {similarity}%");

Passo 6: Aggiungi errori di gestione

Raccogliere e gestire gli errori per la robustezza della produzione:

try
{
    AsposeOcr ocr = new AsposeOcr();
    bool found = ocr.ImageHasText(img1, "PII", settings);
    int sim = ocr.CompareImageTexts(img1, img2, settings, false);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Ottimizzare la ricerca o la confrontazione di massa

  • Processare le immagini in batch utilizzando modelli async o paralleli
  • Immagini di prelievo (crop, clean up) per una maggiore precisione
  • Fine-tune regex per scenari avanzati
// Example: Search for a pattern in all images in a folder
foreach (string file in Directory.GetFiles("./archive", "*.png"))
{
    bool found = ocr.ImageHasText(file, "Confidential", settings);
    if (found) { Console.WriteLine($"Found in: {file}"); }
}

Passo 8 - Esempio completo

using Aspose.OCR;
using System;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            string img1 = "contract1.png";
            string img2 = "contract2.png";

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            // Search for specific text
            bool isFound = ocr.ImageHasText(img1, "NDA", settings);
            Console.WriteLine($"Text found: {isFound}");

            // Compare two images
            int similarity = ocr.CompareImageTexts(img1, img2, settings, true);
            Console.WriteLine($"Image text similarity: {similarity}%");
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilizzare casi e applicazioni

Compatibilità e rilevamento PII

Cerca dati o modelli confidenziali (come ID, SSN) all’interno degli archivi di immagini digitali.

revisione legale e contrattuale

Confronta i contratti o i documenti basati sull’immagine per le differenze di testo dopo la firma o l’editing.

Gestione dei Digital Asset

Possibilità di tagging automatico o di ricerca in grandi repositori di immagini per l’automazione dei processi aziendali.

Sfide e soluzioni comuni

Sfida 1: Immagini con Stili di testo variati

Soluzione: Utilizzare la corrispondenza di caso-insensibile e regex; testare su vari fonti / sfondo.

Challenge 2: Big Batch di ricerca

Soluzione: Utilizzare flussi di lavoro paralleli o asincroni e immagini pre-processate se possibile.

Challenge 3: Modelli complessi o testo redatto

Soluzione: Rifinare i regex e testare le immagini di campione; tune impostazioni per i rumori o le foto redatte.

Considerazioni di prestazioni

  • Il processo di batch per la velocità su grandi archivi
  • Utilizzare immagini di fonte di alta qualità per la massima precisione
  • Tune i modelli di ricerca per minimizzare i falsi positivi

Migliori pratiche

  • Testare tutti i modelli di ricerca e confronto sui set di campione prima
  • Gestire in modo sicuro e registrare informazioni sensibili o risultati di ricerca
  • Aggiornare regolarmente Aspose.OCR per miglioramenti di funzionalità e precisione

Scenari avanzati

Scenario 1: Regex avanzato per la redazione

bool found = ocr.ImageHasText(img1, @"(Account|Card)\s*#:?\s*\d{4,}", settings);

Scenario 2: Ricerca multilingue

settings.Language = Language.French;
bool isFound = ocr.ImageHasText(img1, "Confidentiel", settings);

conclusione

Aspose.OCR Image Text Finder per .NET consente di cercare, rilevare e confrontare il testo basato sull’immagine in modo efficiente - attraverso i flussi di lavoro di archiviazione, legale e conformità.

Trova altri esempi nel Aspose.OCR per .NET API Reference .

 Italiano