Como converter PDFs escaneados em documentos de texto procuráveis em .NET
PDFs escaneados são geralmente arquivos não editáveis, baseados em imagens, o que torna difícil extrair texto deles. No entanto, com Aspose.OCR para .NET, você pode rapidamente transformar esses PDFs escaneados em documentos de texto editáveis e de busca que tornam a recuperação de dados e a gestão de documentos muito mais fácil.
Por que você deve converter PDFs escaneados em texto procurável?
Acessibilidade avançada:- PDFs escaneados podem ser convertidos em texto que é procurável e editável, permitindo uma melhor acessibilidade ao conteúdo.
Organização de dados:- Uma vez convertido, o texto pode ser organizado, manipulado e reutilizado em vários formatos como Word, Excel ou texto plano.
Retenção de conteúdo:- Aspose.OCR garante que as imagens originais e layout são preservados enquanto o texto é extraído, dando-lhe tanto conteúdo e contexto.
Requisitos: Preparar-se para a conversão de PDF escaneada
Antes de iniciar o processo de extração de texto de PDFs escaneados, certifique-se do seguinte:
Install Aspose.OCR para .NET:- Instale a biblioteca necessária usando NuGet com o comando:
dotnet add package Aspose.OCR
Configuração de Licença:- Obtenha e configure uma licença medida usando o
SetMeteredKey()
método para desbloquear todas as funcionalidades.Preparar os seus PDFs escaneados:- Certifique-se de que seus PDFs escaneados estão em boa qualidade (300 DPI ou superior) para os melhores resultados OCR.
Guia passo a passo para converter PDFs escaneados em texto
Passo 1: Configure sua licença
Comece configurando a sua licença Aspose.OCR para garantir o acesso completo às funcionalidades.
using Aspose.OCR;
Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("Metered license configured successfully.");
Passo 2: Carregar o PDF Escaneado no Objeto de Input OCR
Carregue o arquivo PDF escaneado no motor OCR para reconhecimento de texto.
OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_document.pdf", 0, 3); // Specify pages to process (first 3 pages)
Console.WriteLine("Scanned PDF loaded successfully.");
Passo 3: Configure o motor OCR para reconhecimento
Configure o motor OCR para otimizar a extração de texto do PDF escaneado.
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin; // Specify OCR language (use Latin for English)
Console.WriteLine("OCR settings configured.");
Passo 4: extrair e salvar o texto reconhecido
Processar o PDF escaneado para extrair o texto e exportá-lo para um arquivo.
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extraction successful.");
// Output the recognized text to a file
results[0].Save("recognized_text.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to recognized_text.txt.");
Passo 5: Teste o texto reconhecido
Após a extração, verifique a precisão do reconhecimento de texto verificando o arquivo de saída ou exibindo-o na consola.
Problemas comuns e fixos
1 – Precisão do OCR
- Solução: Certifique-se de que a qualidade do PDF escaneado é alta (300 DPI ou mais) para melhor precisão de reconhecimento.
2 - Reconhecimento incorreto da língua
- Solução: especifique explicitamente a definição de idioma em RecognitionSettings para melhores resultados, especialmente para caracteres não latinos.
Desempenho lento para arquivos grandes
- Solução: Processar grandes PDFs em pedaços ou otimizar o uso da memória para acelerar o processo OCR.