Text Extractor Plugin para Aspose.PDF
O Aspose.PDF Text Extractor Plugin para .NET permite que os desenvolvedores extraam conteúdo de texto – estruturado, plano ou assim – de arquivos PDF. Com três modos de extração, é ideal para conversão de documentos, mineração de dados, melhorias de acessibilidade e muito mais.
Últimos artigos
Aspose.PDF Extractor de texto Plugin Funções-chave
- Múltiplos modos de extração*Extrair texto como puro (formado), crudo (as-is) ou plano (pure) para a máxima flexibilidade.
Batch PDF ProcessamentoAdicione vários PDFs para extração simultânea e fluxos de trabalho simplificados.
• Integração .NET *API Straightforward – adicione a qualquer projeto C# ou .NET para implementação rápida.
Comece com Aspose.PDF Text Extractor Plugin
Instalar Aspose.PDF para .NETAdicionar através de NuGet ou baixar assembleias à sua solução .NET.
Configure a sua licençaAtivar para processamento e suporte ilimitados.
Configuração de Opções de ExtracçãoUtilização
TextExtractor
eTextExtractorOptions
Instale o modo de extração conforme desejado (Pure, Raw, Plain).Processos e Retrieve TextExecute os resultados de extração e acesso através da coleção de recipientes de resultado.
Exemplo: extrair texto de um PDF (C#)
using Aspose.Pdf.Plugins;
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Pure);
options.AddInput(new FileDataSource(@"C:\Samples\sample.pdf"));
var resultContainer = extractor.Process(options);
string extractedText = resultContainer.ResultCollection[0].ToString();
Console.WriteLine(extractedText);
Exemplo: Batch Extract Text de múltiplos PDFs
string[] pdfFiles = { "sample1.pdf", "sample2.pdf" };
var extractor = new TextExtractor();
var options = new TextExtractorOptions(TextExtractorOptions.TextFormattingMode.Raw);
foreach (var file in pdfFiles)
{
options.AddInput(new FileDataSource(file));
}
var resultContainer = extractor.Process(options);
for (int i = 0; i < resultContainer.ResultCollection.Count; i++)
{
string text = resultContainer.ResultCollection[i].ToString();
Console.WriteLine(text);
}
Use Casas e Extensões
- PDF para TXT Conversão: Converter automaticamente PDFs para texto claro para indicação, pesquisa ou arquivo.
- Data Mining: Extrair dados de tabela, facturas ou formulários para processamento ou análise adicionais.
- Accessibilidade: Prepare conteúdo leível para leitores de tela ou formatos alternativos.
- Batch Processing: Use modos de extração para fluxos de trabalho descendentes específicos (por exemplo, pré-processamento OCR, reconhecimento de entidade).
Para extração avançada – como o tratamento de PDFs criptografados, ou a personalização da saída de texto – referir-se à API oficial de referência.
* Melhores práticas *
- Sempre selecione o modo de extração que corresponda às suas necessidades de saída (formato, cru ou limpo).
- Para grandes conjuntos de documentos, o processo de batch para maximizar o passaporte e minimize o esforço manual.
- Resultados de extração de testes com PDFs do mundo real para garantir a precisão dos dados.
Recursos relacionados: