Come automatizzare l'ingresso dei dati dai moduli con Aspose.OCR

Come automatizzare l'ingresso dei dati dai moduli con Aspose.OCR

L’estrazione di informazioni dai moduli cartacei, questioni o sondaggi è una bottiglia di input dati classica. con Aspose.OCR per .NET, è possibile digitalizzare i dati del modulo da scansioni o foto, riducendo gli errori e trasformando i documenti non strutturati in dati strutture edilizzabili.

Il problema del mondo reale

L’ingresso dei dati di modulo manuale è lento, costoso e altamente soggetto a errori - specialmente nelle grandi organizzazioni, nella ricerca o nella logistica. La scrittura a mano, i layout variati e i tipi di campi misti rendono l’automazione sfida senza potenti strumenti OCR.

Soluzione Overview

Aspose.OCR per .NET fornisce impostazioni di riconoscimento flessibili per estrarre sia testo stampato che manualmente scritto dai moduli, scatole di controllo dei processi e risultati strutturati - ideali per le imprese, la salute, le risorse umane, l’istruzione e altro ancora.

Prerequisiti

Prima di iniziare, assicurati di avere:

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
  • L’esperienza C#
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

using Aspose.OCR;

Passo 2: Scannare o fotografare i tuoi moduli

Prepara le immagini del tuo modulo (JPEG, PNG, PDF o TIFF). Puoi aggiungere più file per l’estrazione di batch.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("form1.png");
input.Add("form2.jpg");

Passo 3: Configurare le impostazioni di riconoscimento

Adattare le impostazioni per la rilevazione del linguaggio, del layout e (se necessario) della scrittura manuale.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT; // For complex or multi-field forms

Passo 4: Eseguire il processo di estrazione dei dati

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Esportare o utilizzare i dati digitalizzati

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Extracted text
    result.Save("form_data.txt", SaveFormat.Text); // Save as plain text
    result.Save("form_data.xlsx", SaveFormat.Xlsx); // Save as spreadsheet
}

Passo 6: Aggiungi errori di gestione

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // further processing
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Ottimizzare il layout e la manoscritta

  • Per i campi scritti a mano, utilizzare scansioni DPI superiori e regolare le impostazioni del linguaggio
  • Utilizzare DetectAreasMode.TABLE per i moduli di tabella, o DOCUMENT per layout vari
  • Test con le forme di campione per tonificare le impostazioni
// Example: Add all images from a directory
foreach (string file in Directory.GetFiles("./forms", "*.png"))
{
    input.Add(file);
}

Passo 8 - Esempio completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("form1.png");
            input.Add("form2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("form_data.txt", SaveFormat.Text);
                result.Save("form_data.xlsx", SaveFormat.Xlsx);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilizzare casi e applicazioni

Salute e HR

Eliminare e digitalizzare i dati dei moduli per l’assunzione del paziente, le domande di lavoro o le indagini.

Ricerca e istruzione

Automatizzare il questionario e il trattamento delle indagini per un’analisi più rapida.

Logistica e business

Digitalizzare le note di consegna, i moduli di ispezione o i checklist degli inventari.

Sfide e soluzioni comuni

sfida 1: campi di scrittura a mano o di bassa qualità

Soluzione: Utilizzare scansioni di alta qualità e regolare le impostazioni di riconoscimento per la scrittura a mano.

Challenge 2: Layout di forme irregolari

Soluzione: Utilizzare il modo DOCUMENT per layout complessi e testare su campioni.

Titolo 3: Batch Extraction

Soluzione: Utilizzare il processamento di file basato su directory per i moduli ad alto volume.

Considerazioni di prestazioni

  • Il processo di batch per velocità e scalabilità
  • Disporre di oggetti OCR dopo l’uso
  • Validare la produzione prima dell’integrazione

Migliori pratiche

  • Verifica dei dati digitalizzati per la precisione prima dell’automazione
  • Tune impostazioni per ogni tipo di modello di modulo
  • Archivi originali per la revisione
  • Aggiornare Aspose.OCR regolarmente per miglioramenti di funzionalità

Scenari avanzati

Scenario 1: estrarre la scrittura a mano dalle forme

settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
// Optionally, pre-filter for handwriting using image preprocessing

Scenario 2: esportazione a JSON per importare database

foreach (RecognitionResult result in results)
{
    result.Save("form_data.json", SaveFormat.Json);
}

conclusione

Aspose.OCR for .NET automates forma l’estrazione dei dati – eliminando le entrate manuali e accelerando i flussi di lavoro aziendali, di ricerca o amministrativi.

Vedi più utilizzo avanzato e campioni di codice in Aspose.OCR per .NET API Reference .

 Italiano