Como extrair texto de PDFs escaneados com Aspose.OCR
Extracção de texto de arquivos PDF escaneados ou baseados em imagens usados para exigir fluxos de trabalho complexos ou trabalho manual caro. com Aspose.OCR Escaneado PDF para Texto para .NET, você pode automatizar este processo, convertendo PDFs para texto procurável e editável com apenas algumas linhas de código.
Problemas do mundo real
As organizações frequentemente recebem contratos, relatórios ou arquivos como PDFs escaneados.Manualmente copiar texto ou pesquisar dentro desses documentos é tedioso e errado, diminuindo a conformidade, arquivando e projetos de transformação digital.
Solução Overview
Aspose.OCR para .NET permite que você batch processamento scanned PDFs – convertê-los em texto ou PDF de busca, tornando a informação acessível, indexável, e pronto para fluxos de trabalho digitais.
Pré-requisitos
Antes de começar, certifique-se de ter:
- Visual Studio 2019 ou posterior
- .NET 6.0 ou posterior (ou .Net Framework 4.6.2+)
- Aspose.OCR para .NET de NuGet
- Conhecimento básico C#
PM> Install-Package Aspose.OCR
Implementação passo a passo
Passo 1: Instale e Configure Aspose.OCR
Adicione o pacote NuGet e referência Aspose.OCR:
using Aspose.OCR;
Passo 2: Adicione seus arquivos PDF escaneados
Crie um objeto OcrInput para a entrada de PDF e adicione seus arquivos PDF escaneados.
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);
Passo 3: Configure as configurações de reconhecimento
Configure o idioma e outras configurações de reconhecimento para se adequar aos seus documentos.
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
Passo 4: execute o processo de reconhecimento
Reconheça o texto dos seus PDFs escaneados:
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
Passo 5: Salvar ou exportar texto reconhecido
Exportar o texto reconhecido para arquivos ou converter os resultados em PDFs de pesquisa.
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText); // Show the text in console
result.Save("output.txt", SaveFormat.Text); // Save as plain text
result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}
Passo 6: Adicionar erro de gestão
O reconhecimento de rolamento em um bloco de tentativa/catch para a robusteza.
try
{
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
// Further processing...
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
Passo 7: Optimize para PDFs de grande ou múltipla página
- Processar PDFs página por página para arquivos gigantes
- Use scans de alta qualidade para os melhores resultados
- Processos de batch em paralelo para grandes coleções
// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
input.Add(file);
}
Passo 8: Exemplo de trabalho completo
using Aspose.OCR;
using System;
using System.Collections.Generic;
class Program
{
static void Main(string[] args)
{
try
{
OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;
AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
result.Save("output.txt", SaveFormat.Text);
result.Save("output.pdf", SaveFormat.Pdf);
}
}
catch (Exception ex)
{
Console.WriteLine($"Error: {ex.Message}");
}
}
}
Use Casos e Aplicações
Arquivo Digital
Converter bibliotecas inteiras de documentos scannados em arquivos pesquisíveis e indexáveis para a conformidade e gestão do conhecimento.
Gestão Legal e Contrato
Extrair cláusulas ou termos de contrato de PDFs para revisão, automação ou assinatura digital.
Pesquisa de Documentos Streamlined
Permite uma rápida pesquisa de texto completo em arquivos, bases de conhecimento ou ficheiros de caso.
Desafios comuns e soluções
1o desafio: escaneamento de baixa qualidade ou descuidado
** Solução:** Use filtros pré-processadores e escaneamentos de alta qualidade onde possível.
Desafio 2: PDFs de várias línguas
Solução: Configura o idioma em configurações de reconhecimento ou processo com várias opções linguísticas.
Desafio 3: arquivos PDF muito grandes
** Solução: ** Processamento em batches ou por página, e monitorização do uso da memória.
Considerações de desempenho
- Use o DPI ideal (300+) para PDFs escaneados
- Processos de batch para melhor transmissão
- Dispõe de objetos OCR e manuais de arquivos fechados
Melhores Práticas
- Validar a saída do OCR antes da automação adicional
- Organize e backup arquivos PDF originais
- Use o SaveFormat correto para o seu fluxo de trabalho
- Atualizações periódicas de Aspose.OCR para novas funcionalidades PDF
Os cenários avançados
Scenário 1: extrair apenas páginas específicas de um PDF
input.Add("archive.pdf", startPage: 5, pagesCount: 3);
Scenário 2: Exportação para vários formatos
foreach (RecognitionResult result in results)
{
result.Save("output.docx", SaveFormat.Docx);
result.Save("output.json", SaveFormat.Json);
}
Conclusão
A ASPOSE.OCR para .NET permite que você converta PDFs escaneados em arquivos de texto e de pesquisa executáveis – eliminando a entrada manual e tornando as informações acessíveis para toda a sua organização.
Para mais detalhes e exemplos, veja o Aspose.OCR para .NET API Referência .