Come estrarre testo dalle immagini scansionate con Aspose.OCR

Come estrarre testo dalle immagini scansionate con Aspose.OCR

Scansione di contratti, accordi, pagine di libri, o vecchi record generalmente produce file di immagine – non testo edilizzabile. Aspose.OCR Scan to Text per .NET consente di automatizzare l’estrazione di testo strutturato e di ricerca da qualsiasi documento scansionato o foto, risparmiando innumerevoli ore di ingresso manuale.

Il problema del mondo reale

I documenti di carta, i libri e gli archivi sono spesso memorizzati come immagini.L’estrazione del loro contenuto per flussi di lavoro digitali, la conformità o la ricerca può essere lenta, costosa e pronta ad errore se fatto manualmente.

Soluzione Overview

Aspose.OCR Scan to Text per .NET converte le immagini delle pagine stampate in testo utilizzabile, gestisce singole colonne, multi-colonne e layout complessi. Il flusso di lavoro è perfetto per digitalizzare contratti, libri, registri e documenti aziendali per uso moderno.

Prerequisiti

Assicurati di avere:

  • Visual Studio 2019 o successivo
  • .NET 6.0 o successivo (o .Net Framework 4.6.2+)
  • Aspose.OCR per .NET da NuGet
  • Conoscenza C#
PM> Install-Package Aspose.OCR

Implementazione passo dopo passo

Passo 1: Installare e configurare Aspose.OCR

Aggiungi il pacchetto NuGet e il riferimento Aspose.OCR:

using Aspose.OCR;

Passo 2: Aggiungi le tue immagini scansionate

Caricare singoli o più file di immagine da elaborare.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Passo 3: Configurare le impostazioni di riconoscimento

Tune per il linguaggio e la layout dei documenti come necessario.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Passo 4: Eseguire il processo di riconoscimento

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Salvare o elaborare il testo estratto

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Passo 6: Aggiungi errori di gestione

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Ottimizzare il layout dei documenti

  • Per i libri o gli articoli, utilizzare DetectAreasMode.DOCUMENT o provare DetectareaModa.AUTO
  • Immagini di prelievo (crop, deskew) per la migliore precisione
  • Il processo di batch per grandi archivi
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Passo 8 - Esempio completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilizzare casi e applicazioni

Contratto e accordo digitalizzazione

Digitalizzare rapidamente i documenti legali o aziendali per la ricerca, l’archiviazione e i flussi di lavoro digitali.

Libri e archivi di elaborazione

Convertire pagine di libri o registri storici in formati di ricerca edilizzabili.

Compatibilità e estrazione dei dati

Permette controlli automatizzati di conformità, audit o estrazione di testo dai documenti di eredità.

Sfide e soluzioni comuni

sfida 1: scansioni di bassa qualità o testo spezzato

Soluzione: Utilizzare pre-processing o migliorare le immagini per una migliore precisione OCR.

Challenge 2: layout multi-colonne o complessi

Soluzione: Adattare DetectAreasMode e testare per la migliore gestione del layout.

Titolo: Batch Digitization

Soluzione: Utilizzare il processamento di batch e la gestione delle risorse per lavori su larga scala.

Considerazioni di prestazioni

  • Il processo di batch per velocità e scalabilità
  • Utilizzare immagini di buona qualità
  • Disporre di oggetti OCR dopo l’uso

Migliori pratiche

  • Validare sempre il testo estratto prima di automatizzare o archiviare
  • Utilizzare le impostazioni di riconoscimento corrette per il tipo di documento
  • Backup delle scansioni originali per riferimento
  • Risultati di test OCR su un set di campioni prima della produzione

Scenari avanzati

Scenario 1: Extrazione di documenti multilingue

settings.Language = Language.French;

Scenario 2: esportazione a JSON per l’integrazione

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

conclusione

Aspose.OCR Scan to Text per .NET è il modo più veloce per convertire le immagini scansionate e i documenti cartacei in testo usabile edilizzabile – ideale per progetti legali, accademici o aziendali.

Vedi altri esempi e dettagli tecnici nel Aspose.OCR per .NET API Reference .

 Italiano