Como extrair texto de PDFs escaneados com Aspose.OCR

Extracção de texto a partir de imagem ou scanned PDF Os arquivos usados para exigir fluxos de trabalho complexos ou trabalho manual caro. com Aspose.OCR Scanned PDF para Texto para .NET, você pode automatizar este processo, convertendo PDFs em texto procurável e editável com apenas algumas linhas de código.

Problemas do mundo real

As organizações frequentemente recebem contratos, relatórios ou arquivos como PDFs escaneados.Manualmente copiar texto ou pesquisar dentro desses documentos é tedioso e errado, diminuindo a conformidade, arquivando e projetos de transformação digital.

Solução Overview

Aspose.OCR para .NET permite que você batch processamento scanned PDFs – convertê-los em texto ou PDF de busca, tornando a informação acessível, indexável, e pronto para fluxos de trabalho digitais.

Pré-requisitos

Antes de começar, certifique-se de ter:

Visual Studio 2019 ou posterior
.NET 6.0 ou posterior (ou .NET Framework 4.6.2+)
Aspose.OCR para .NET de NuGet
Conhecimento básico C

PM> Install-Package Aspose.OCR

Implementação passo a passo

Passo 1: Instale e Configure Aspose.OCR

Adicione o pacote NuGet e referência Aspose.OCR:

using Aspose.OCR;

Passo 2: Adicione seus arquivos PDF escaneados

Crie um objeto OcrInput para a entrada de PDF e adicione seus arquivos PDF escaneados.

OcrInput input = new OcrInput(InputType.PDF);
input.Add("contract.pdf");
input.Add("archive.pdf");
// Optionally specify page ranges:
// input.Add("report.pdf", startPage: 0, pagesCount: 5);

Passo 3: Configure as configurações de reconhecimento

Configure o idioma e outras configurações de reconhecimento para se adequar aos seus documentos.

RecognitionSettings settings = new RecognitionSettings();
settings.Language = Language.English;

Passo 4: execute o processo de reconhecimento

Reconheça o texto dos seus PDFs escaneados:

AsposeOcr ocr = new AsposeOcr();
List<RecognitionResult> results = ocr.Recognize(input, settings);

Passo 5: Salvar ou exportar texto reconhecido

Exportar o texto reconhecido para arquivos ou converter os resultados em PDFs de pesquisa.

foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText); // Show the text in console
    result.Save("output.txt", SaveFormat.Text); // Save as plain text
    result.Save("output.pdf", SaveFormat.Pdf); // Save as searchable PDF
}

Passo 6: Adicionar erro de gestão

O reconhecimento de rolamento em um bloco de tentativa/catch para a robusteza.

try
{
    AsposeOcr ocr = new AsposeOcr();
    List<RecognitionResult> results = ocr.Recognize(input, settings);
    // Further processing...
}
catch (Exception ex)
{
    Console.WriteLine($"Error: {ex.Message}");
}

Passo 7: Optimize para PDFs de grande ou múltipla página

Processar PDFs página por página para arquivos gigantes
Use scans de alta qualidade para os melhores resultados
Processos de batch em paralelo para grandes coleções

// Example: Add all scanned PDFs in a folder
foreach (string file in Directory.GetFiles("./pdfs", "*.pdf"))
{
    input.Add(file);
}

Passo 8: Exemplo de trabalho completo

using Aspose.OCR;
using System;
using System.Collections.Generic;

class Program
{
    static void Main(string[] args)
    {
        try
        {
            OcrInput input = new OcrInput(InputType.PDF);
            input.Add("contract.pdf");
            input.Add("archive.pdf");

            RecognitionSettings settings = new RecognitionSettings();
            settings.Language = Language.English;

            AsposeOcr ocr = new AsposeOcr();
            List<RecognitionResult> results = ocr.Recognize(input, settings);

            foreach (RecognitionResult result in results)
            {
                Console.WriteLine(result.RecognitionText);
                result.Save("output.txt", SaveFormat.Text);
                result.Save("output.pdf", SaveFormat.Pdf);
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error: {ex.Message}");
        }
    }
}

Use Casos e Aplicações

Arquivo Digital

Converter bibliotecas inteiras de documentos scannados em arquivos pesquisíveis e indexáveis para a conformidade e gestão do conhecimento.

Gestão Legal e Contrato

Extrair cláusulas ou termos de contrato de PDFs para revisão, automação ou assinatura digital.

Pesquisa de Documentos Streamlined

Permite uma rápida pesquisa de texto completo em arquivos, bases de conhecimento ou ficheiros de caso.

Desafios comuns e soluções

1o desafio: escaneamento de baixa qualidade ou descuidado

Solução: Use filtros pré-processadores e escaneamentos de alta qualidade onde possível.

Desafio 2: PDFs de várias línguas

Solução: Configura o idioma em configurações de reconhecimento ou processo com várias opções linguísticas.

Desafio 3: arquivos PDF muito grandes

Solução: Processamento em batches ou por página, e monitorização do uso da memória.

Considerações de desempenho

Use o DPI ideal (300+) para PDFs escaneados
Processos de batch para melhor transmissão
Dispõe de objetos OCR e manuais de arquivos fechados

Melhores Práticas

Validar a saída do OCR antes da automação adicional
Organize e backup arquivos PDF originais
Use o SaveFormat correto para o seu fluxo de trabalho
Atualizações periódicas de Aspose.OCR para novas funcionalidades PDF

Os cenários avançados

Scenário 1: extrair apenas páginas específicas de um PDF

input.Add("archive.pdf", startPage: 5, pagesCount: 3);

Scenário 2: Exportação para vários formatos

foreach (RecognitionResult result in results)
{
    result.Save("output.docx", SaveFormat.Docx);
    result.Save("output.json", SaveFormat.Json);
}

Conclusão

A Aspose.OCR para .NET permite que você converta PDFs escaneados em arquivos de texto e de pesquisa executáveis – eliminando a entrada manual e tornando as informações acessíveis para toda a sua organização.

Para mais detalhes e exemplos, veja o Aspose.OCR para .NET API Referência .