Como extrair texto de PDFs escaneados em .NET usando Aspose.OCR

Como extrair texto de PDFs escaneados em .NET usando Aspose.OCR

Os PDFs escaneados são muitas vezes desafiantes para trabalhar com porque são essencialmente apenas imagens de texto.Converter essas imagens em documentos de texto que podem ser buscados e editados abre um mundo de possibilidades para gerenciamento de documentos e acessibilidade de conteúdo.Com Aspose.OCR para .NET, você pode converter os PDFs escaneados em documentos que podem ser completamente buscados enquanto preserva as imagens originais.

Por que OCR (Reconhecimento de Caráter Óptico) É Importante para PDFs Escaneados

  • Extracção de dados:- OCR permite que você converta o texto escaneado em dados de leitura por máquina, que podem ser editados e indexados.

  • A capacidade de busca:- Ao converter PDFs escaneados em documentos de pesquisa, você pode rapidamente encontrar informações relevantes sem pesquisar manualmente através de páginas.

  • Melhorar a produtividade:- Salve tempo automatizando a conversão de documentos scannados em formatos editáveis como o Word ou o Excel.

Prerequisitos: Configuração para a extração de texto de PDF escaneado

Antes de começar a extrair texto de seus PDFs escaneados, certifique-se de que os seguintes passos são completos:

  • Install Aspose.OCR para .NET:- Adicione Aspose.OCR ao seu projeto usando NuGet: dotnet add package Aspose.OCR

  • Obtenha uma Licença Metrada:- Configure a sua licença medida para desbloquear todas as funcionalidades da biblioteca Aspose.OCR usando SetMeteredKey().

  • Preparar os seus PDFs escaneados:- Certifique-se de que seus PDFs escaneados são de alta qualidade. melhores resultados de qualidade em OCR mais preciso.

Guia passo a passo: extrair texto de PDFs escaneados

Passo 1: Instale a biblioteca necessária

Comece instalando Aspose.OCR para .NET em seu projeto. você pode fazê-lo diretamente do NuGet.

dotnet add package Aspose.OCR

Passo 2: Configurar suas chaves de licença

Antes de proceder, configure a sua licença para Aspose.OCR para desbloquear todas as funcionalidades.

using Aspose.OCR;

Metered license = new Metered();
license.SetMeteredKey("<your public key>", "<your private key>");
Console.WriteLine("License configured successfully.");

Passo 3: Carregar o PDF Scanned para o Objeto de Input OCR

Você precisará carregar o PDF escaneado no OcrInput Objeto. Aspose.OCR suporta o escaneamento de várias páginas de um PDF.

OcrInput input = new OcrInput(Aspose.OCR.InputType.PDF);
input.Add("scanned_sample.pdf", 0, 3); // Process first 3 pages of the PDF
Console.WriteLine("Scanned PDF loaded successfully.");

Passo 4: Processar o PDF escaneado usando o motor OCR

Com o PDF carregado, envie-o para o motor Aspose OCR para reconhecimento.

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Aspose.OCR.Language.Latin;  // Set OCR language (e.g., Latin for English)

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, settings);
Console.WriteLine("Text extracted from PDF.");

Passo 5: Saia o texto reconhecido ou salve-o

Uma vez que o motor OCR processar o PDF, você pode exibir o texto reconhecido diretamente ou salvá-lo para um arquivo.

string recognizedText = results[0].RecognitionText;
Console.WriteLine($"Recognized Text: {recognizedText}");

// Save the result to a text file
results[0].Save("output.txt", Aspose.OCR.SaveFormat.Text);
Console.WriteLine("Recognized text saved to output.txt.");

Passo 6: Testar e otimizar os resultados do OCR

Depois de extrair o texto, teste a saída para precisão. se necessário, você pode tweak as configurações OCR para melhorar os resultados para diferentes layouts de documento.

Problemas comuns e fixos

1 – Precisão do OCR

  • Solução: Assegure-se de que a qualidade do PDF escaneado é alta.Use scans de alta resolução para melhorar a precisão do reconhecimento.

2 - Fontes não suportados

  • Solução: forneça a configuração de idioma correta nas opções OCR para melhorar o reconhecimento para caracteres não latinos.

3 – Desempenho lento

  • Solução: Coloque o PDF em pedaços ou páginas menores para processamento mais rápido, especialmente para documentos grandes.
 Português