Com extreure text de les imatges escanades amb Aspose.OCR

Com extreure text de les imatges escanades amb Aspose.OCR

Escanejar contractes, acords, pàgines de llibres, o antics registres normalment produeixen fitxers d’imatge - text no editat. Aspose.OCR escaneja a text per .NET li permet automatitzar l’extracció de text estructurat, buscable de qualsevol document o fotografia escanejada, estalviant innombrables hores de entrada manual.

El problema del món real

Els documents de paper, els llibres i els arxius sovint s’emmagatzemen com a imatges.Extractar el seu contingut per a fluxos de treball digitals, la conformitat o la investigació pot ser lent, costós i propens a error si es fa manualment.

Revisió de solucions

Aspose.OCR Scan to Text per a .NET converteix imatges de pàgines impreses en text usable, gestiona columnes úniques, múltiples i dissenys complexos. El flux de treball és perfecte per digitalitzar contractes, llibres, registres i documents de negocis per al seu ús modern.

Prerequisits

Assegureu-vos que teniu:

  • Visual Studio 2019 o posterior
  • .NET 6.0 o posterior (o .Net Framework 4.6.2+)
  • Aspose.OCR per a .NET des de NuGet
  • C# coneixements bàsics
PM> Install-Package Aspose.OCR

Implementació de pas a pas

Pas 1: Instal·la i configura Aspose.OCR

Afegir el paquet de NuGet i referència Aspose.OCR:

using Aspose.OCR;

Pas 2: Afegeix les teves imatges escanades

Carregar un o diversos fitxers d’imatge per a ser processats.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Pas 3: Configureu la configuració de reconeixement

Tuneu el llenguatge i el layout del document com sigui necessari.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Pas 4: Feu el procés de reconeixement

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Pas 5: Salvar o processar el text extraït

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Pas 6: Afegir el tractament d’errors

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Pas 7: Optimitzar el disseny de documents

  • Per a llibres o articles, utilitzeu DetectAreasMode.DOCUMENT o tenteu detectSites.AUTO
  • Imatges de preprocessió (crop, desqueig) per a la millor exactitud
  • Processos de batxillerat per a grans arxius
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Capítol 8: Exemple complet

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Utilitzar casos i aplicacions

Contracte i contracte digitalització

Digitalitzar ràpidament els documents legals o empresarials per a la cerca, l’arxiu i els fluxos de treball digitals.

Llibre i arxiu de processament

Convertir pàgines de llibres o registres històrics en formats buscables i editables.

Conformitat i extracció de dades

Permet verificacions automatitzades de conformitat, auditoria o extracció de text dels documents d’herència.

Els reptes i les solucions comunes

Desafiament 1: Escans de baixa qualitat o text esgotat

Solució: Utilitza pre-processament o millora de les imatges per a una millor precisió OCR.

Challenge 2: Layouts multi-columnes o complexos

Solució: Ajustar DetectAreasMode i provar per al millor maneig de la disposició.

Títol 3: Digitalització de batxils

Solució: Utilitza el processament de batxes i la gestió de recursos per a llocs de treball a gran escala.

Consideracions de rendiment

  • Processos de batxillerat per a velocitat i escalabilitat
  • Utilitzar imatges de font de bona qualitat
  • Disposar d’objectes OCR després de l’ús

Les millors pràctiques

  • Validar sempre el text extraït abans d’automatitzar o arxiu
  • Utilitzar la correcta configuració de reconeixement per al tipus de document
  • Backup d’escans originals per a referència
  • Els resultats de la prova OCR en un conjunt de mostres abans de fabricar

Escenaris avançats

Escenari 1: Extracció de documents multilingüe

settings.Language = Language.French;

Escenari 2: Exportació a JSON per a la integració

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Conclusió

Aspose.OCR Scan to Text per a .NET és la manera més ràpida de convertir les imatges i els documents de paper escanats en text usable, editat —ideal per als projectes legals, acadèmics o empresarials.

Veure més exemples i detalls tècnics a la Aspose.OCR per a .NET API Referència .

 Català