Como cultivar documentos escaneados para OCR em .NET
Ao preparar documentos escaneados para Reconhecimento de Caráter Óptico (OCR), é essencial que as imagens sejam colhidas para se concentrar em áreas pesadas por texto.A criação de partes irrelevantes do documento garante que o software OCR possa extrair texto de forma mais precisa e eficiente. Aspose.Imaging para .NET fornece as ferramentas necessárias para colher documentos escaneados e prepará-los para o processamento OCR.
Benefícios do Cropping Scanned Documents para OCR
Melhoria da precisão:- Concentre os esforços da OCR em seções de texto relevantes, evitando ruídos ou conteúdos irrelevantes.
Tempo de processamento reduzido:- Cultivar a imagem para minimizar a área a ser processada, acelerando o processo OCR.
Melhor Extracção de Texto:- Certifique-se de que o texto é adequadamente alinhado e bem moldado para os motores OCR.
Principais requisitos: Setting Up Aspose.Imaging
- Instalando o Dados do SDK em seu sistema.
- Adicione Aspose.Imaging para o seu projeto:
dotnet add package Aspose.Imaging
- Obtenha uma licença medida e configure-a usando
SetMeteredKey()
.
Guia passo a passo para Crop Scanned Documents para OCR
Passo 1: Configure a Licença Metrada
Configurar Aspose.Imaging para acesso ilimitado às funções de colheita.
using Aspose.Imaging;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Passo 2: Carregar a imagem do documento escaneado
Carregue o arquivo de documento escaneado que precisa ser gravado para a preparação do OCR.
string inputPath = @"c:\documents\scanned_document.png";
using (var image = Image.Load(inputPath))
{
Console.WriteLine($"Loaded scanned document: {inputPath}");
}
Passo 3: Defina a área de cultivo
Defina a área rectangular ao redor do texto que precisa ser extraído.
var cropArea = new Rectangle(50, 50, 500, 500); // Crop area: x, y, width, height
image.Crop(cropArea);
Console.WriteLine($"Cropped image to the defined area: {cropArea.Width}x{cropArea.Height}");
Passo 4: Aplique a operação de cultivo
Use o Crop()
método para extrair a seção de texto necessária da imagem.
image.Crop(cropArea);
Console.WriteLine("Applied crop operation to isolate text for OCR.");
Passo 5: Salve a imagem cropped
Salve a imagem encoberta para o processamento OCR.
image.Save(@"c:\output\ocr_ready_image.png", new PngOptions());
Console.WriteLine("Cropped image saved successfully for OCR.");
A implantação e o uso
Sistemas de processamento de documentos:- Implementação de gravação em sistemas de escaneamento de documentos automatizados para preparar imagens para o OCR.
Integração do fluxo de trabalho OCR:- Documentos de cultivo antes de passá-los aos motores OCR para extração de texto mais rápida e precisa.
Validação de saída:- Abra a imagem coberta para garantir que o texto seja claramente visível e marcado corretamente.
Aplicações do mundo real
Escaneamento de documentos legais e médicos:- Os contratos ou registros médicos escaneados para se concentrar no texto importante para o processamento de OCR.
Sistemas de arquivo:- Preparar documentos históricos para a extração de texto e digitalização.
Serviços de E-Government:- Automatizar a extração de texto de formulários ou aplicações escaneados.
Problemas comuns e fixos
Área de cultivo incorreto:- Assegurar que o
Rectangle
Coordenadas correspondem à seção com texto.Imagens de baixa qualidade:- Certifique-se de que a imagem escaneada tem uma resolução suficientemente alta para a precisão OCR.
Permissões de arquivo:- Verifique que os diretórios de saída têm permissões de escrita apropriadas.
Conclusão
Ao usar Aspose.Imaging para .NET, você pode facilmente colher documentos escaneados para se concentrar nas seções importantes para o processamento OCR, melhorando a precisão e eficiência. Esta solução é ideal para fluxos de trabalho automatizados em gerenciamento de documentos, sistemas legais e cuidados de saúde.