Como extrair texto de imagens escaneadas com Aspose.OCR
Escaneamento de contratos, acordos, páginas de livros, ou registros antigos geralmente produz arquivos de imagem – não texto editável. Aspose.OCR Scan to Text for .NET permite automatizar a extração de texto estruturado, procurável de qualquer documento escaneado ou foto, economizando inúmeras horas de entrada manual.
Problemas do mundo real
Documentos de papel, livros e arquivos são muitas vezes armazenados como imagens. extrair seu conteúdo para fluxos de trabalho digitais, conformidade, ou pesquisa pode ser lento, caro, e propenso a erros se feito manualmente.
Solução Overview
Aspose.OCR Scan to Text for .NET converte imagens de páginas impressas em texto usável, manuseia de colunas únicas, multi-colunas e layouts complexos. O fluxo de trabalho é perfeito para digitalizar contratos, livros, registros e documentos de negócios para uso moderno.
Pré-requisitos
Certifique-se de que você tem:
- Visual Studio 2019 ou posterior
- .NET 6.0 ou posterior (ou .Net Framework 4.6.2+)
- Aspose.OCR para .NET de NuGet
- Conhecimento básico C#
PM> Install-Package Aspose.OCR
Implementação passo a passo
Passo 1: Instale e Configure Aspose.OCR
Adicione o pacote NuGet e referência Aspose.OCR:
using Aspose.OCR;
Passo 2: Adicione suas imagens escaneadas
Carregar um ou vários arquivos de imagem para ser processado.
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
Passo 3: Configure as configurações de reconhecimento
Tune para o idioma do documento e layout conforme necessário.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
// For complex or multi-column layouts:
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
Passo 4: execute o processo de reconhecimento
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Passo 5: Salvar ou processar o texto extraído
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
// Save to Word or PDF as needed
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
Passo 6: Adicionar erro de gestão
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Use results...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Passo 7: Otimizar layouts de documentos
- Para livros ou artigos, use DetectAreasMode.DOCUMENT ou tente DetecAreaModa.AUTO
- Imagens pré-processadas (crop, deskew) para a melhor precisão
- Processos de batch para grandes arquivos
foreach (string file in Directory.GetFiles("./scans", "*.jpg"))
{
input.Add(file);
}
Passo 8: Exemplo completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.SingleImage);
input.Add("contract_page1.png");
input.Add("agreement_page2.jpg");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
settings.DetectAreasMode = DetectAreasMode.DOCUMENT;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("scanned_text.txt", SaveFormat.Text);
result.Save("scanned_text.docx", SaveFormat.Docx);
result.Save("scanned_text.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Use Casos e Aplicações
Contrato e Acordo Digitização
Digitar rapidamente documentos legais ou de negócios para pesquisas, arquivos e fluxos de trabalho digitais.
Livro e Arquivo Processamento
Converter páginas de livros ou registros históricos em formatos procuráveis e editáveis.
Conformidade e extração de dados
Permite verificações de conformidade automatizadas, auditoria ou extração de texto de documentos de herança.
Desafios comuns e soluções
1o desafio: Escaneamento de baixa qualidade ou texto fado
** Solução:** Use pré-processamento ou melhorar imagens para melhor precisão OCR.
Desafio 2: Layouts múltiplos ou complexos
** Solução:** Ajuste o DetectAreasMode e teste para o melhor gerenciamento de layout.
Título: Batch Digitization
** Solução:** Use processamento de batch e gestão de recursos para empregos em grande escala.
Considerações de desempenho
- Processos de batch para velocidade e escalabilidade
- Use imagens de fonte de boa qualidade
- Dispõe objetos OCR após o uso
Melhores Práticas
- Valida sempre o texto extraído antes da automatização ou arquivamento
- Use as configurações de reconhecimento corretas para o tipo de documento
- Backup de scans originais para referência
- Resultados de teste OCR em um pacote de amostras antes da produção
Os cenários avançados
Scenário 1: Extracção de Documentos Multi-Language
settings.Language = Language.French;
Scenário 2: Exportação para JSON para integração
foreach (RecognitionResult result in results)
{
result.Save("scanned_text.json", SaveFormat.Json);
}
Conclusão
Aspose.OCR Scan to Text for .NET é a maneira mais rápida de converter imagens e documentos de papel escaneados em texto usável, editável – ideal para projetos legais, acadêmicos ou empresariais.
Veja mais exemplos e detalhes técnicos no Aspose.OCR para .NET API Referência .