Como converter PDFs escaneados em documentos de texto procuráveis em .NET

PDFs escaneados são geralmente arquivos não editáveis, baseados em imagens, o que torna difícil extrair texto deles. No entanto, com Aspose.OCR para .NET, você pode rapidamente transformar esses PDFs escaneados em documentos de texto editáveis e de busca que tornam a recuperação de dados e a gestão de documentos muito mais fácil.

Por que você deve converter PDFs escaneados em texto procurável?

Acessibilidade avançada:- PDFs escaneados podem ser convertidos em texto que é procurável e editável, permitindo uma melhor acessibilidade ao conteúdo.
Organização de dados:- Uma vez convertido, o texto pode ser organizado, manipulado e reutilizado em vários formatos como Word, Excel ou texto plano.
Retenção de conteúdo:- Aspose.OCR garante que as imagens originais e layout são preservados enquanto o texto é extraído, dando-lhe tanto conteúdo e contexto.

Requisitos: Preparar-se para a conversão de PDF escaneada

Antes de iniciar o processo de extração de texto de PDFs escaneados, certifique-se do seguinte:

Install Aspose.OCR para .NET:- Instale a biblioteca necessária usando NuGet com o comando: dotnet add package Aspose.OCR
Configuração de Licença:- Obtenha e configure uma licença medida usando o SetMeteredKey() método para desbloquear todas as funcionalidades.
Preparar os seus PDFs escaneados:- Certifique-se de que seus PDFs escaneados estão em boa qualidade (300 DPI ou superior) para os melhores resultados OCR.

Guia passo a passo para converter PDFs escaneados em texto

Passo 1: Configure sua licença

Comece configurando a sua licença Aspose.OCR para garantir o acesso completo às funcionalidades.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");

Passo 2: Carregar o PDF Escaneado no Objeto de Input OCR

Carregue o arquivo PDF escaneado no motor OCR para reconhecimento de texto.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3);  // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");

Passo 3: Configure o motor OCR para reconhecimento

Configure o motor OCR para otimizar a extração de texto do PDF escaneado.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");

Passo 4: extrair e salvar o texto reconhecido

Processar o PDF escaneado para extrair o texto e exportá-lo para um arquivo.

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");

// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");

Passo 5: Teste o texto reconhecido

Após a extração, verifique a precisão do reconhecimento de texto verificando o arquivo de saída ou exibindo-o na consola.

Problemas comuns e fixos

1 – Precisão do OCR

Solução: Certifique-se de que a qualidade do PDF escaneado é alta (300 DPI ou mais) para melhor precisão de reconhecimento.

2 - Reconhecimento incorreto da língua

Solução: especifique explicitamente a definição de idioma em RecognitionSettings para melhores resultados, especialmente para caracteres não latinos.

Desempenho lento para arquivos grandes

Solução: Processar grandes PDFs em pedaços ou otimizar o uso da memória para acelerar o processo OCR.