Como converter PDF para Excel (XLS / XLSX / CSV) em .NET
Este artigo mostra como converter de forma programática documentos PDF em formatos do Microsoft Excel (XLS, XLSX, CSV, e muito mais) usando o Aspose.PDF XLS Converter para .NET. Isso permite desbloquear, analisar e automatizar a transferência de dados de PDFs para folhetos para processamento adicional, relatório ou arquivo.
Problemas do mundo real
Exportar tabelas ou dados estruturados de PDFs para o Excel manualmente é trabalho intenso e errado. Automatizar esta conversão é vital para fluxos de trabalho em finanças, relatórios, análises e conformidade onde as operações de folheto em massa PDF são necessárias.
Solução Overview
Aspose.PDF XLS Converter para .NET permite que:
- Converter PDFs individuais ou múltiplos para arquivos do Excel (XLSX, XLS, CSV, ODS, XML)
- Controle de estrutura e formatação de folhas de trabalho
- Integração suave com projetos C#/NET para automação escalável
Pré-requisitos
- Visual Studio 2019 ou posterior
- .NET 6.0 ou posterior
- Aspose.PDF para .NET instalado através de NuGet
PM> Install-Package Aspose.PDF
Implementação passo a passo
Passo 1: Referência Espaços de Nome Necessários
using Aspose.Pdf.Plugins;
using System.IO;
Passo 2: Converter um PDF para XLSX
var inputPath = @"C:\Samples\sample.pdf";
var outputPath = @"C:\Samples\sample.xlsx";
// Use PdfXls (preferred) or XlsConverter – both expose the same conversion core.
var converter = new PdfXls();
var options = new PdfToXlsOptions
{
Format = PdfToXlsOptions.ExcelFormat.XLSX
};
options.AddInput(new FileDataSource(inputPath));
options.AddOutput(new FileDataSource(outputPath));
// Perform conversion
var result = converter.Process(options);
Console.WriteLine("PDF converted to XLSX: " + outputPath);
Use Casos e Aplicações (com variações de código)
1. Exportação para CSV, XLS, ODS ou XML
especificar o formato de saída desejado usando o Format
A propriedade:
options.Format = PdfToXlsOptions.ExcelFormat.CSV; // For CSV output
// options.Format = PdfToXlsOptions.ExcelFormat.XMLSpreadSheet2003; // For Excel XML 2003
// options.Format = PdfToXlsOptions.ExcelFormat.ODS; // For OpenDocument Spreadsheet
// options.Format = PdfToXlsOptions.ExcelFormat.XLSM; // For macro-enabled Excel
See PdfToXlsOpções.ExcelFormat para todos os formatos suportados.
2. Batch Converter PDFs múltiplos para Excel
string[] files = Directory.GetFiles(@"C:\Docs\", "*.pdf");
foreach (var file in files)
{
var outXlsx = Path.ChangeExtension(file, ".xlsx");
var opts = new PdfToXlsOptions { Format = PdfToXlsOptions.ExcelFormat.XLSX };
opts.AddInput(new FileDataSource(file));
opts.AddOutput(new FileDataSource(outXlsx));
using (var converter = new PdfXls())
{
converter.Process(opts);
}
}
3. Minimizar o número de folhas de trabalho
Por padrão, cada página do PDF torna-se uma nova folha de trabalho do Excel. Para salvar todos os conteúdos em uma única folheta:
options.MinimizeTheNumberOfWorksheets = true;
4. Insira uma coluna branca no início
Para certos cenários de importação de dados, você pode querer adicionar uma coluna branca como a primeira columna:
options.InsertBlankColumnAtFirst = true;
Melhores práticas e dicas
- Preview output para verificar o layout da tabela e a integridade dos dados, especialmente quando se utilizam opções avançadas.
- Para documentos grandes, use o processamento de batch para automatizar a conversão em massa de forma eficiente.
- Ao converter para CSV, verificar os delimitadores e codificar para compatibilidade de baixo fluxo.
- Para PDFs altamente estruturados ou escaneados, documentos pré-processados para os melhores resultados.
Exemplo completo de implementação
using Aspose.Pdf.Plugins;
using System;
using System.IO;
class Program
{
static void Main()
{
var inputPath = @"C:\Samples\sample.pdf";
var outputPath = @"C:\Samples\sample.xlsx";
var options = new PdfToXlsOptions
{
Format = PdfToXlsOptions.ExcelFormat.XLSX,
MinimizeTheNumberOfWorksheets = true
};
options.AddInput(new FileDataSource(inputPath));
options.AddOutput(new FileDataSource(outputPath));
using var converter = new PdfXls();
var result = converter.Process(options);
Console.WriteLine("PDF converted to Excel successfully!");
}
}
Conclusão
O Aspose.PDF XLS Converter para .NET permite a automação rápida, robusta e flexível de PDF-to-Excel (XLS/X LSX/CSV/ XML/ODS) em projetos C#. Desbloquear dados dos PDFs, análises de fluxo e integrar fluxos de trabalho de folheto – todos com uma API simples, de alto desempenho.
Perguntas frequentes
**Q: Quais formatos posso exportar para além do XLSX?**A: Os formatos suportados incluem XLSX, XLSM, CSV, ODS e Excel 2003 XML. Format
Propriedade para escolher.
**Q: Como posso salvar todos os conteúdos PDF em uma única folha de trabalho?**A – Set MinimizeTheNumberOfWorksheets = true
Em seu PdfToXlsOptions
.
**Q: Onde posso encontrar mais exemplos ou obter suporte?**A: Veja a documentação oficial Aspose.PDF, referência API, ou suporte de contato para cenários avançados.