Cum să căutați și să comparați textul în imagini cu Aspose.OCR

Cum să căutați și să comparați textul în imagini cu Aspose.OCR

Căutarea sau compararea textului în interiorul imaginilor este esențială pentru conformitate, arhive digitale și clasificare automată. Aspose.OCR Image Text Finder pentru .NET vă permite să identificați, să căutați și să comparați textul imaginii cu precizie - prin o gamă largă de cazuri de utilizare, de la detectarea PII la revizuirea juridică.

Problema lumii reale

Întreprinderile au adesea nevoie să caute conținut sensibil, să verifice semnăturile sau să compare textul între diferite versiuni ale fișierelor de imagine. controalele manuale sunt lente și incredibile, mai ales pentru arhivele digitale mari sau seturile de documente.

Soluție de ansamblu

Cu Aspose.OCR, puteți căuta texte sau modele specifice (utilizând șiruri sau regex) în interiorul imaginilor și comparați conținutul text al celor două imagini pentru a găsi diferențe.

Prevederile

Veți avea nevoie de:

  • Visual Studio 2019 sau mai târziu
  • .NET 6.0 sau mai târziu (sau .Net Framework 4.6.2+)
  • Aspose.OCR pentru .NET de la NuGet
  • Abilități de bază C#
PM> Install-Package Aspose.OCR

Implementarea pas cu pas

Pasul 1: Instalați și configurați Aspose.OCR

Adăugați pachetul și spațiile de nume necesare:

using Aspose.OCR;

Pasul 2: Pregătiți fișierele de imagine

Configurați imaginile pe care doriți să le căutați sau comparați.

string img1 = "document1.png";
string img2 = "document2.jpg";

Pasul 3: Configurați opțiunile de căutare și comparație

Configurați setările pentru căutarea textului (string sau regex) și comparație.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English; // Adjust as needed

Pasul 4: Căutați text într-o imagine

Foloseşte-l pe ImageHasText Metoda de căutare rapidă și flexibilă a textului (suport string-uri și regex):

AsposeOcr ocr = new AsposeOcr();
bool isFound = ocr.ImageHasText(img1, "Confidential", settings); // String search
Console.WriteLine($"Text found: {isFound}");

// Regex search example:
bool regexFound = ocr.ImageHasText(img1, @"\d{3}-\d{2}-\d{4}", settings); // e.g., US SSN pattern
Console.WriteLine($"Regex found: {regexFound}");

Pasul 5: Comparați textul a două imagini

Utilizarea CompareImageTexts Pentru a evidenția diferențele în conținut text:

int similarity = ocr.CompareImageTexts(img1, img2, settings, true); // true = case-insensitive
Console.WriteLine($"Image text similarity: {similarity}%");

Pasul 6: Adăugați gestionarea erorilor

Cautarea și gestionarea erorilor pentru robustitatea producției:

try
{
    AsposeOcr ocr = new AsposeOcr();
    bool found = ocr.ImageHasText(img1, "PII", settings);
    int sim = ocr.CompareImageTexts(img1, img2, settings, false);
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pasul 7: Optimizarea pentru căutarea în masă sau comparație

  • Procesarea imaginilor în batch folosind modele async sau paralele
  • Imagini prelucrate (crop, curățat) pentru o precizie mai mare
  • Fine-tune regex pentru scenarii avansate
// Example: Search for a pattern in all images in a folder
foreach (string file in Directory.GetFiles("./archive", "*.png"))
{
    bool found = ocr.ImageHasText(file, "Confidential", settings);
    if (found) { Console.WriteLine($"Found in: {file}"); }
}

Pasul 8: Exemplu complet

using Aspose.OCR;
using System;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            string img1 = "contract1.png";
            string img2 = "contract2.png";

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            // Search for specific text
            bool isFound = ocr.ImageHasText(img1, "NDA", settings);
            Console.WriteLine($"Text found: {isFound}");

            // Compare two images
            int similarity = ocr.CompareImageTexts(img1, img2, settings, true);
            Console.WriteLine($"Image text similarity: {similarity}%");
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Folosește cazuri și aplicații

Compatibilitate și detecție PII

Căutați date sau modele confidențiale (cum ar fi ID-uri, SSN-urile) în arhivele de imagini digitale.

Revizuirea legală și contractuală

Comparați contracte sau documente pe bază de imagine pentru diferențele text după semnare sau editare.

Managementul activelor digitale

Permite etichetarea automată sau căutarea în depozitele de imagini mari pentru automatizarea proceselor de afaceri.

Provocări și soluții comune

Provocare 1: Imagini cu stiluri de text variate

Soluție: Utilizați corespondența caz-insensibilă și regex; testați pe diverse fonturi / fundaluri.

Cuvânt cheie: Big Batch Search

Soluție: Utilizați fluxuri de lucru paralele sau asincrone și imagini preprocesate ori de câte ori este posibil.

Provocare 3: Modele complexe sau textul redactat

Soluție: Refine regex și testează pe imagini de eșantion; tune setări pentru zgomot sau imaginile redactate.

Considerații de performanță

  • Procesul de batch pentru viteza pe arhive mari
  • Utilizați imagini de sursă de înaltă calitate pentru cea mai bună precizie
  • Tunează modelele de căutare pentru a minimiza pozitivele false

Cele mai bune practici

  • Testarea tuturor căutărilor și a modelelor de comparație pe seturile de mostre mai întâi
  • Gestionarea și înregistrarea în siguranță a informațiilor sensibile sau a rezultatelor căutării
  • Actualizarea regulată a ASPOSE.OCR pentru îmbunătățiri de caracteristică și precizie

Scenarii avansate

Scenariul 1: Regex avansat pentru editare

bool found = ocr.ImageHasText(img1, @"(Account|Card)\s*#:?\s*\d{4,}", settings);

Scenariul 2: Căutarea în mai multe limbi

settings.Language = Language.French;
bool isFound = ocr.ImageHasText(img1, "Confidentiel", settings);

concluziile

Aspose.OCR Image Text Finder pentru .NET vă permite să căutați, să detectați și să comparați textul bazat pe imagine în mod eficient – prin intermediul fluxurilor de lucru de arhivă, legale și de conformitate.

Găsiți mai multe exemple în Aspose.OCR pentru .NET API Referință .

 Română