Como converter PDFs escaneados em documentos de texto procuráveis em .NET

Os PDFs escaneados são muitas vezes desafiantes para trabalhar com porque são essencialmente apenas imagens de texto.Converter essas imagens em documentos de texto que podem ser buscados e editados abre um mundo de possibilidades para gerenciamento de documentos e acessibilidade de conteúdo.Com Aspose.OCR para .NET, você pode converter os PDFs escaneados em documentos que podem ser completamente buscados enquanto preserva as imagens originais.

Por que converter PDFs escaneados em documentos de texto procuráveis?

Acessibilidade:- Faça possível pesquisar o conteúdo escaneado, tornando fácil encontrar informações sem ler manualmente através do documento.
Edição de conteúdo:- Uma vez convertido em texto, o conteúdo pode ser editado, atualizado ou reutilizado em outros formatos.
Eficiência:- Economize tempo automatizando o processo de conversão de PDFs escaneados em documentos de texto totalmente acessíveis.

Prerequisitos: Configuração para a extração de texto de PDF escaneado

Antes de extrair texto de PDFs escaneados, siga estas etapas para garantir que tudo esteja configurado:

Install Aspose.OCR para .NET:- Adicione Aspose.OCR ao seu projeto usando NuGet: dotnet add package Aspose.OCR
Obtenha a sua licença:- Configurar sua licença medida usando SetMeteredKey() para desbloquear a funcionalidade completa do Aspose.OCR.
Preparar o seu PDF escaneado:- Certifique-se de que os PDFs escaneados são de boa qualidade para melhor precisão de reconhecimento.

Guia passo a passo: Conversão de PDFs escaneados para texto procurável

Passo 1: Configurar sua licença

Comece configurando a sua licença Aspose.OCR para desbloquear todas as funcionalidades.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Passo 2: Carregar o PDF Escaneado no Objeto de Input OCR

Em seguida, carregue o PDF escaneado no OcrInput objeto para iniciar o processo OCR.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Process first 3 pages
Console.WriteLine("Scanned PDF loaded successfully.");

Passo 3: Configure o motor OCR para reconhecimento

Configure o motor OCR e configure quaisquer configurações de reconhecimento, como linguagem e precisão.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language
Console.WriteLine("OCR engine configured.");

Passo 4: extrair e extrair o texto reconhecido

Agora, extrair o texto do PDF escaneado usando o motor OCR.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted successfully from the scanned PDF.");

// Output the recognized text
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save the result to a text file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Text saved to recognized_text.txt.");

Passo 5: Teste o PDF procurável

Certifique-se de que o texto extraído é procurável e editável, testando a saída em um visualizador de PDF ou editor.

Problemas comuns e fixos

Baixo grau de precisão OCR

Solução: Assegure-se de que o PDF escaneado é de alta qualidade (al menos 300 DPI) para melhorar os resultados de reconhecimento.

2 - Fontes não suportados

Solução: Assegurar que a linguagem correta está definida nas configurações do OCR para o reconhecimento de texto preciso, especialmente para caracteres não latinos.

Desempenho lento para grandes PDFs

Solução: Para PDFs grandes, processar o documento em pedaços ou páginas menores para reduzir o uso da memória e acelerar o processo.