Como converter PDFs escaneados em documentos de texto procuráveis em .NET

Como converter PDFs escaneados em documentos de texto procuráveis em .NET

PDFs escaneados são geralmente arquivos não editáveis, baseados em imagens, o que torna difícil extrair texto deles. No entanto, com Aspose.OCR para .NET, você pode rapidamente transformar esses PDFs escaneados em documentos de texto editáveis e de busca que tornam a recuperação de dados e a gestão de documentos muito mais fácil.

Por que você deve converter PDFs escaneados em texto procurável?

  • Acessibilidade avançada:- PDFs escaneados podem ser convertidos em texto que é procurável e editável, permitindo uma melhor acessibilidade ao conteúdo.

  • Organização de dados:- Uma vez convertido, o texto pode ser organizado, manipulado e reutilizado em vários formatos como Word, Excel ou texto plano.

  • Retenção de conteúdo:- Aspose.OCR garante que as imagens originais e layout são preservados enquanto o texto é extraído, dando-lhe tanto conteúdo e contexto.

Requisitos: Preparar-se para a conversão de PDF escaneada

Antes de iniciar o processo de extração de texto de PDFs escaneados, certifique-se do seguinte:

  • Install Aspose.OCR para .NET:- Instale a biblioteca necessária usando NuGet com o comando: dotnet add package Aspose.OCR

  • Configuração de Licença:- Obtenha e configure uma licença medida usando o SetMeteredKey() método para desbloquear todas as funcionalidades.

  • Preparar os seus PDFs escaneados:- Certifique-se de que seus PDFs escaneados estão em boa qualidade (300 DPI ou superior) para os melhores resultados OCR.

Guia passo a passo para converter PDFs escaneados em texto

Passo 1: Configure sua licença

Comece configurando a sua licença Aspose.OCR para garantir o acesso completo às funcionalidades.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Passo 2: Carregar o PDF Escaneado no Objeto de Input OCR

Carregue o arquivo PDF escaneado no motor OCR para reconhecimento de texto.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Passo 3: Configure o motor OCR para reconhecimento

Configure o motor OCR para otimizar a extração de texto do PDF escaneado.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Passo 4: extrair e salvar o texto reconhecido

Processar o PDF escaneado para extrair o texto e exportá-lo para um arquivo.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Passo 5: Teste o texto reconhecido

Após a extração, verifique a precisão do reconhecimento de texto verificando o arquivo de saída ou exibindo-o na consola.

Problemas comuns e fixos

1 – Precisão do OCR

  • Solução: Certifique-se de que a qualidade do PDF escaneado é alta (300 DPI ou mais) para melhor precisão de reconhecimento.

2 - Reconhecimento incorreto da língua

  • Solução: especifique explicitamente a definição de idioma em RecognitionSettings para melhores resultados, especialmente para caracteres não latinos.

Desempenho lento para arquivos grandes

  • Solução: Processar grandes PDFs em pedaços ou otimizar o uso da memória para acelerar o processo OCR.
 Português