Como converter PDF para Excel (XLS / XLSX / CSV) em .NET

Como converter PDF para Excel (XLS / XLSX / CSV) em .NET

Este artigo mostra como converter de forma programática documentos PDF em formatos do Microsoft Excel (XLS, XLSX, CSV, e muito mais) usando o Aspose.PDF XLS Converter para .NET. Isso permite desbloquear, analisar e automatizar a transferência de dados de PDFs para folhetos para processamento adicional, relatório ou arquivo.

Problemas do mundo real

Exportar tabelas ou dados estruturados de PDFs para o Excel manualmente é trabalho intenso e errado. Automatizar esta conversão é vital para fluxos de trabalho em finanças, relatórios, análises e conformidade onde as operações de folheto em massa PDF são necessárias.

Solução Overview

Aspose.PDF XLS Converter para .NET permite que:

  • Converter PDFs individuais ou múltiplos para arquivos do Excel (XLSX, XLS, CSV, ODS, XML)
  • Controle de estrutura e formatação de folhas de trabalho
  • Integração suave com projetos C#/NET para automação escalável

Pré-requisitos

  • Visual Studio 2019 ou posterior
  • .NET 6.0 ou posterior
  • Aspose.PDF para .NET instalado através de NuGet
PM> Install-Package Aspose.PDF

Implementação passo a passo

Passo 1: Referência Espaços de Nome Necessários

using Aspose.Pdf.Plugins;
using System.IO;

Passo 2: Converter um PDF para XLSX

var inputPath = @"C:\Samples\sample.pdf";
var outputPath = @"C:\Samples\sample.xlsx";

// Use PdfXls (preferred) or XlsConverter – both expose the same conversion core.
var converter = new PdfXls();
var options = new PdfToXlsOptions
{
    Format = PdfToXlsOptions.ExcelFormat.XLSX
};

options.AddInput(new FileDataSource(inputPath));
options.AddOutput(new FileDataSource(outputPath));

// Perform conversion
var result = converter.Process(options);
Console.WriteLine("PDF converted to XLSX: " + outputPath);

Use Casos e Aplicações (com variações de código)

1. Exportação para CSV, XLS, ODS ou XML

especificar o formato de saída desejado usando o Format A propriedade:

options.Format = PdfToXlsOptions.ExcelFormat.CSV;  // For CSV output
// options.Format = PdfToXlsOptions.ExcelFormat.XMLSpreadSheet2003;  // For Excel XML 2003
// options.Format = PdfToXlsOptions.ExcelFormat.ODS;  // For OpenDocument Spreadsheet
// options.Format = PdfToXlsOptions.ExcelFormat.XLSM; // For macro-enabled Excel

See PdfToXlsOpções.ExcelFormat para todos os formatos suportados.

2. Batch Converter PDFs múltiplos para Excel

string[] files = Directory.GetFiles(@"C:\Docs\", "*.pdf");
foreach (var file in files)
{
    var outXlsx = Path.ChangeExtension(file, ".xlsx");
    var opts = new PdfToXlsOptions { Format = PdfToXlsOptions.ExcelFormat.XLSX };
    opts.AddInput(new FileDataSource(file));
    opts.AddOutput(new FileDataSource(outXlsx));
    using (var converter = new PdfXls())
    {
        converter.Process(opts);
    }
}

3. Minimizar o número de folhas de trabalho

Por padrão, cada página do PDF torna-se uma nova folha de trabalho do Excel. Para salvar todos os conteúdos em uma única folheta:

options.MinimizeTheNumberOfWorksheets = true;

4. Insira uma coluna branca no início

Para certos cenários de importação de dados, você pode querer adicionar uma coluna branca como a primeira columna:

options.InsertBlankColumnAtFirst = true;

Melhores práticas e dicas

  • Preview output para verificar o layout da tabela e a integridade dos dados, especialmente quando se utilizam opções avançadas.
  • Para documentos grandes, use o processamento de batch para automatizar a conversão em massa de forma eficiente.
  • Ao converter para CSV, verificar os delimitadores e codificar para compatibilidade de baixo fluxo.
  • Para PDFs altamente estruturados ou escaneados, documentos pré-processados para os melhores resultados.

Exemplo completo de implementação

using Aspose.Pdf.Plugins;
using System;
using System.IO;

class Program
{
    static void Main()
    {
        var inputPath = @"C:\Samples\sample.pdf";
        var outputPath = @"C:\Samples\sample.xlsx";
        var options = new PdfToXlsOptions
        {
            Format = PdfToXlsOptions.ExcelFormat.XLSX,
            MinimizeTheNumberOfWorksheets = true
        };
        options.AddInput(new FileDataSource(inputPath));
        options.AddOutput(new FileDataSource(outputPath));
        using var converter = new PdfXls();
        var result = converter.Process(options);
        Console.WriteLine("PDF converted to Excel successfully!");
    }
}

Conclusão

O Aspose.PDF XLS Converter para .NET permite a automação rápida, robusta e flexível de PDF-to-Excel (XLS/X LSX/CSV/ XML/ODS) em projetos C#. Desbloquear dados dos PDFs, análises de fluxo e integrar fluxos de trabalho de folheto – todos com uma API simples, de alto desempenho.

Perguntas frequentes

**Q: Quais formatos posso exportar para além do XLSX?**A: Os formatos suportados incluem XLSX, XLSM, CSV, ODS e Excel 2003 XML. Format Propriedade para escolher.

**Q: Como posso salvar todos os conteúdos PDF em uma única folha de trabalho?**A – Set MinimizeTheNumberOfWorksheets = true Em seu PdfToXlsOptions.

**Q: Onde posso encontrar mais exemplos ou obter suporte?**A: Veja a documentação oficial Aspose.PDF, referência API, ou suporte de contato para cenários avançados.

 Português