Cómo convertir PDF en Excel (XLS / XLSX / CSV) en .NET

Cómo convertir PDF en Excel (XLS / XLSX / CSV) en .NET

Este artículo muestra cómo convertir de forma programática los documentos PDF en formatos de Microsoft Excel (XLS, XLSX, CSV, y más) utilizando el Aspose.PDF XLS Converter para .NET. Esto le permite desbloquear, analizar y automatizar la transferencia de datos de PDFs a tarjetas para procesamiento adicional, reportaje o archivo.

Problemas del mundo real

Exportar tablas o datos estructurados de PDF a Excel manualmente es intenso de trabajo y prohibido de errores. Automatizar esta conversión es vital para los flujos de trabajos en financiación, informes, análisis y cumplimiento donde se necesitan operaciones de archivo PDF en gran parte.

Revisión de Soluciones

Aspose.PDF XLS Converter para .NET le permite:

  • Convertir PDFs únicos o múltiples en archivos Excel (XLSX, XLS, CSV, ODS, XML)
  • Control de estructura y formatación de la hoja de trabajo
  • Integra suavemente con los proyectos C#/NET para la automatización escalable

Prerequisitos

  • Visual Studio 2019 o más tarde
  • .NET 6.0 o más tarde
  • Aspose.PDF para .NET instalado a través de NuGet
PM> Install-Package Aspose.PDF

Implementación paso a paso

Paso 1: Referencia de los espacios de nombre requeridos

using Aspose.Pdf.Plugins;
using System.IO;

Paso 2: Convertir un PDF en XLSX

var inputPath = @"C:\Samples\sample.pdf";
var outputPath = @"C:\Samples\sample.xlsx";

// Use PdfXls (preferred) or XlsConverter – both expose the same conversion core.
var converter = new PdfXls();
var options = new PdfToXlsOptions
{
    Format = PdfToXlsOptions.ExcelFormat.XLSX
};

options.AddInput(new FileDataSource(inputPath));
options.AddOutput(new FileDataSource(outputPath));

// Perform conversion
var result = converter.Process(options);
Console.WriteLine("PDF converted to XLSX: " + outputPath);

Uso de Casos y Aplicaciones (con variaciones de código)

1. Exportación a CSV, XLS, ODS o XML

especificar el formato de salida deseado utilizando el Format La propiedad:

options.Format = PdfToXlsOptions.ExcelFormat.CSV;  // For CSV output
// options.Format = PdfToXlsOptions.ExcelFormat.XMLSpreadSheet2003;  // For Excel XML 2003
// options.Format = PdfToXlsOptions.ExcelFormat.ODS;  // For OpenDocument Spreadsheet
// options.Format = PdfToXlsOptions.ExcelFormat.XLSM; // For macro-enabled Excel

See PdfToXlsOptions.ExcelFormat para todos los formatos apoyados.

2. Batch Convertir PDFs múltiples a Excel

string[] files = Directory.GetFiles(@"C:\Docs\", "*.pdf");
foreach (var file in files)
{
    var outXlsx = Path.ChangeExtension(file, ".xlsx");
    var opts = new PdfToXlsOptions { Format = PdfToXlsOptions.ExcelFormat.XLSX };
    opts.AddInput(new FileDataSource(file));
    opts.AddOutput(new FileDataSource(outXlsx));
    using (var converter = new PdfXls())
    {
        converter.Process(opts);
    }
}

3. Minimizar el número de placas de trabajo

Por default, cada página PDF se convierte en una nueva hoja de trabajo de Excel. Para guardar todos los contenidos en un solo hoja:

options.MinimizeTheNumberOfWorksheets = true;

4. Insertar una columna blanca en el inicio

Para ciertos escenarios de importación de datos, puede que desee agregar una columna blanca como la primera:

options.InsertBlankColumnAtFirst = true;

Mejores prácticas y consejos

  • Preview output para verificar el diseño de la tabla y la integridad de los datos, especialmente cuando se utilizan las opciones de diseño avanzado.
  • Para los documentos grandes, utilice el procesamiento de batch para automatizar la conversión de gran tamaño de manera eficiente.
  • Cuando se convierte en CSV, verifica los delimitadores y codifica para la compatibilidad de la corriente baja.
  • Para PDFs altamente estructurados o escaneados, documentos preprocesados para los mejores resultados.

Ejemplo completo de implementación

using Aspose.Pdf.Plugins;
using System;
using System.IO;

class Program
{
    static void Main()
    {
        var inputPath = @"C:\Samples\sample.pdf";
        var outputPath = @"C:\Samples\sample.xlsx";
        var options = new PdfToXlsOptions
        {
            Format = PdfToXlsOptions.ExcelFormat.XLSX,
            MinimizeTheNumberOfWorksheets = true
        };
        options.AddInput(new FileDataSource(inputPath));
        options.AddOutput(new FileDataSource(outputPath));
        using var converter = new PdfXls();
        var result = converter.Process(options);
        Console.WriteLine("PDF converted to Excel successfully!");
    }
}

Conclusión

El Aspose.PDF XLS Converter para .NET permite la automatización rápida, robusta y flexible de PDF-to-Excel (XLS / XLSX / CSV / XML / ODS) en proyectos C#. Desbloquear los datos de los PDFs, análisis de flujo, y integrar flujos de trabajo de la hoja de distribución -todo con una simple API de alto rendimiento. Ver la referencia completa de API para más detalles de formato y opción.

Preguntas frecuentes

**Q: ¿Qué formatos puedo exportar además de XLSX?**A: Los formatos apoyados incluyen XLSX, XLSM, CSV, ODS y Excel 2003 XML. Format Propiedad para elegir.

**Q: ¿Cómo puedo guardar todos los contenidos de PDF en una sola hoja de trabajo?**A: El conjunto MinimizeTheNumberOfWorksheets = true En su PdfToXlsOptions.

**Q: ¿Dónde puedo encontrar más ejemplos o obtener apoyo?**A: Ver la documentación oficial Aspose.PDF, API Reference, o soporte de contacto para escenarios avanzados.

 Español