Como preparar imagens escaneadas para OCR com Deskew usando .NET
A OCR (Reconhecimento de Caráter Óptico) começa com imagens perfeitamente alinhadas. escaneamento deslizado ou rotado reduz a precisão da OCR, portanto, desligar é um passo crítico de pré-processamento. Aspose.Imaging para .NET permite que você estrague documentos / fotografias para os melhores resultados em qualquer ferramenta externo de OC.
Problemas do mundo real
Os motores do OCR funcionam melhor em imagens bem alinhadas. escaneamentos crônicos causam caracteres perdidos ou erros de texto.
Solução Overview
Use Aspose.Imaging para .NET para descuidar automaticamente as imagens escaneadas. salvá-las em um formato sem perda como PNG ou TIFF, prontos para importação em seu software OCR de escolha (Asposa.OCR, Tesseract, etc.).
Pré-requisitos
- Visual Studio 2019 ou posterior
- .NET 6.0 ou posterior (ou .Net Framework 4.6.2+)
- Aspose.Imaging para .NET de NuGet
- Um documento ou imagem escaneado (JPEG, PNG, TIFF, etc.)
PM> Install-Package Aspose.Imaging
Implementação passo a passo
Passo 1: Desligue a imagem escaneada
using Aspose.Imaging;
using Aspose.Imaging.ImageOptions;
string inputPath = "./input/scan_for_ocr.png";
string outputPath = "./output/scan_for_ocr_deskewed.png";
using (var image = (RasterImage)Image.Load(inputPath))
{
// Deskew and use white background for optimal OCR results
image.NormalizeAngle(false, Color.White);
image.Save(outputPath, new PngOptions()); // PNG or TIFF recommended
}
Passo 2: Passar imagens descuidadas para qualquer motor OCR
- Use sua ferramenta OCR preferida para reconhecer o texto da imagem descuidada.
- Exemplo: Importação
scan_for_ocr_deskewed.png
para o seu tubo OCR ou software (Aspose.OCR, Tesseract, ABBYY, etc.).
Passo 3: Revisão e Refinamento
- Verifique os resultados do OCR. Se a precisão for baixa, ajuste as configurações de descaso/background ou a qualidade do scan.
- Considere o processamento de batch para todos os novos scans para manter seu fluxo de trabalho de digitalização eficiente.
Use Casos e Aplicações
- Digitalizar arquivos, receitas, contratos ou formulários para texto procurável
- Preparar documentos de negócios para a conformidade e auditoria
- Aumentar a precisão em qualquer OCR ou tubo de automação de documentos
Desafios comuns e soluções
** Imagens descuidadas ainda causam erros OCR:** Tente diferentes cores de fundo, pré-filtração para ruído ou escaneamento de resolução superior.
Os arquivos de saída são muito grandes: Use TIFF com compressão, ou PNG se a transparência for necessária.
Mix de formatos de imagem: Normalize todos os scans para um formato sem perda antes do OCR.
Melhores Práticas
- Use sempre formatos de imagem sem perda para OCR
- Mantenha imagens originais e processadas para referência
- Documentar o seu fluxo de trabalho de desquivo e digitalização para a equipe
FAQ
**Q: Posso pegar todas as imagens em uma pasta?**A: Sim – coloque este código em um loop sobre todos os arquivos, como mostrado em exemplos de batch anteriores.
**Q: Qual cor de fundo funciona melhor para OCR?**A: Branco é mais seguro para texto; use transparente para gráficos, ou ajuste seu documento.
**Q: É OK para comprimir arquivos após desfecho?**A: Use compressão sem perda para evitar artefatos que reduzem a precisão do OCR.
Conclusão
Desenvolver com Aspose.Imaging para .NET é um requisito para OCR confiável, digitalização e automação de negócios.Mantenha seu tubo limpo, rápido e preciso! Aspose.Imaging para .NET API Referência .