Como extrair texto de imagens escaneadas com Aspose.OCR

Como extrair texto de imagens escaneadas com Aspose.OCR

Escaneamento de contratos, acordos, páginas de livros, ou registros antigos geralmente produz arquivos de imagem – não texto editável. Aspose.OCR Scan to Text for .NET permite automatizar a extração de texto estruturado, procurável de qualquer documento escaneado ou foto, economizando inúmeras horas de entrada manual.

Problemas do mundo real

Documentos de papel, livros e arquivos são muitas vezes armazenados como imagens. extrair seu conteúdo para fluxos de trabalho digitais, conformidade, ou pesquisa pode ser lento, caro, e propenso a erros se feito manualmente.

Solução Overview

Aspose.OCR Scan to Text for .NET converte imagens de páginas impressas em texto usável, manuseia de colunas únicas, multi-colunas e layouts complexos. O fluxo de trabalho é perfeito para digitalizar contratos, livros, registros e documentos de negócios para uso moderno.

Pré-requisitos

Certifique-se de que você tem:

  • Visual Studio 2019 ou posterior
  • .NET 6.0 ou posterior (ou .Net Framework 4.6.2+)
  • Aspose.OCR para .NET de NuGet
  • Conhecimento básico C#
PM> Install-Package Aspose.OCR

Implementação passo a passo

Passo 1: Instale e Configure Aspose.OCR

Adicione o pacote NuGet e referência Aspose.OCR:

using Aspose.OCR;

Passo 2: Adicione suas imagens escaneadas

Carregar um ou vários arquivos de imagem para ser processado.

OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");

Passo 3: Configure as configurações de reconhecimento

Tune para o idioma do documento e layout conforme necessário.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

Passo 4: execute o processo de reconhecimento

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Salvar ou processar o texto extraído

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
    result.Save("scanned_text.txt", SaveFormat.Text);
    // Save to Word or PDF as needed
    result.Save("scanned_text.docx", SaveFormat.Docx);
    result.Save("scanned_text.pdf", SaveFormat.Pdf);
}

Passo 6: Adicionar erro de gestão

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Use results...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Otimizar layouts de documentos

  • Para livros ou artigos, use DetectAreasMode.DOCUMENT ou tente DetecAreaModa.AUTO
  • Imagens pré-processadas (crop, deskew) para a melhor precisão
  • Processos de batch para grandes arquivos
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
    input.Add(file);
}

Passo 8: Exemplo completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.SingleImage);
            input.Add("contract_page1.png");
            input.Add("agreement_page2.jpg");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;
            settings.DetectAreasMode = DetectAreasMode.DOCUMENT;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("scanned_text.txt", SaveFormat.Text);
                result.Save("scanned_text.docx", SaveFormat.Docx);
                result.Save("scanned_text.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Use Casos e Aplicações

Contrato e Acordo Digitização

Digitar rapidamente documentos legais ou de negócios para pesquisas, arquivos e fluxos de trabalho digitais.

Livro e Arquivo Processamento

Converter páginas de livros ou registros históricos em formatos procuráveis e editáveis.

Conformidade e extração de dados

Permite verificações de conformidade automatizadas, auditoria ou extração de texto de documentos de herança.

Desafios comuns e soluções

1o desafio: Escaneamento de baixa qualidade ou texto fado

** Solução:** Use pré-processamento ou melhorar imagens para melhor precisão OCR.

Desafio 2: Layouts múltiplos ou complexos

** Solução:** Ajuste o DetectAreasMode e teste para o melhor gerenciamento de layout.

Título: Batch Digitization

** Solução:** Use processamento de batch e gestão de recursos para empregos em grande escala.

Considerações de desempenho

  • Processos de batch para velocidade e escalabilidade
  • Use imagens de fonte de boa qualidade
  • Dispõe objetos OCR após o uso

Melhores Práticas

  • Valida sempre o texto extraído antes da automatização ou arquivamento
  • Use as configurações de reconhecimento corretas para o tipo de documento
  • Backup de scans originais para referência
  • Resultados de teste OCR em um pacote de amostras antes da produção

Os cenários avançados

Scenário 1: Extracção de Documentos Multi-Language

settings.Language = Language.French;

Scenário 2: Exportação para JSON para integração

foreach (RecognitionResult result in results)
{
    result.Save("scanned_text.json", SaveFormat.Json);
}

Conclusão

Aspose.OCR Scan to Text for .NET é a maneira mais rápida de converter imagens e documentos de papel escaneados em texto usável, editável – ideal para projetos legais, acadêmicos ou empresariais.

Veja mais exemplos e detalhes técnicos no Aspose.OCR para .NET API Referência .

 Português