Text Extractor Plugin para Aspose.PDF

O Aspose.PDF Text Extractor Plugin para .NET permite que os desenvolvedores extraam conteúdo de texto – estruturado, plano ou assim – de arquivos PDF. Com três modos de extração, é ideal para conversão de documentos, mineração de dados, melhorias de acessibilidade e muito mais.

Últimos artigos

Aspose.PDF Extractor de texto Plugin Funções-chave

    • Múltiplos modos de extração*Extrair texto como puro (formado), crudo (as-is) ou plano (pure) para a máxima flexibilidade.
  • Batch PDF ProcessamentoAdicione vários PDFs para extração simultânea e fluxos de trabalho simplificados.

  • • Integração .NET *API Straightforward – adicione a qualquer projeto C# ou .NET para implementação rápida.

Comece com Aspose.PDF Text Extractor Plugin

  • Instalar Aspose.PDF para .NETAdicionar através de NuGet ou baixar assembleias à sua solução .NET.

  • Configure a sua licençaAtivar para processamento e suporte ilimitados.

  • Configuração de Opções de ExtracçãoUtilização TextExtractor e TextExtractorOptions Instale o modo de extração conforme desejado (Pure, Raw, Plain).

  • Processos e Retrieve TextExecute os resultados de extração e acesso através da coleção de recipientes de resultado.

Exemplo: extrair texto de um PDF (C#)

using Aspose.Pdf.Plugins;

var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);

Exemplo: Batch Extract Text de múltiplos PDFs

string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
    options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
    string text = resultContainer.ResultCollection[i].ToString();
    Console.WriteLine(text);
}

Use Casas e Extensões

  • PDF para TXT Conversão: Converter automaticamente PDFs para texto claro para indicação, pesquisa ou arquivo.
  • Data Mining: Extrair dados de tabela, facturas ou formulários para processamento ou análise adicionais.
  • Accessibilidade: Prepare conteúdo leível para leitores de tela ou formatos alternativos.
  • Batch Processing: Use modos de extração para fluxos de trabalho descendentes específicos (por exemplo, pré-processamento OCR, reconhecimento de entidade).

Para extração avançada – como o tratamento de PDFs criptografados, ou a personalização da saída de texto – referir-se à API oficial de referência.

* Melhores práticas *

  • Sempre selecione o modo de extração que corresponda às suas necessidades de saída (formato, cru ou limpo).
  • Para grandes conjuntos de documentos, o processo de batch para maximizar o passaporte e minimize o esforço manual.
  • Resultados de extração de testes com PDFs do mundo real para garantir a precisão dos dados.

Recursos relacionados:

 Português