如何在 .NET 中将 PDF 转换为 Excel (XLS / XLSX / CSV)

如何在 .NET 中将 PDF 转换为 Excel (XLS / XLSX / CSV)

本文介绍了如何通过 Aspose.PDF XLS Converter for .NET 编程将 PDF 文档转换为 Microsoft Excel 格式(XLS、XLSX、CSV 等),这使您能够解锁、分析和自动将数据从 PDF 中转移到分布表,以便进一步处理、报告或存档。

现实世界问题

从 PDF 到 Excel 手动导出表或结构化数据是工作强度和错误的。 自动化这种转换对财务、报告、分析和遵守工作流至关重要,在那里需要大量的 PDF-to- spreadsheet 操作。

解决方案概述

Aspose.PDF XLS Converter for .NET 允许您:

  • 将单个或多个 PDF 转换为 Excel 文件(XLSX, XLS, CSV, ODS, XML)
  • 控制工作表结构和格式化
  • 与可扩展自动化的 C#/NET 项目顺利集成

原則

  • Visual Studio 2019 或以后
  • .NET 6.0 或更高
  • Aspose.PDF for .NET 通过 NuGet 安装
PM> Install-Package Aspose.PDF

步骤实施

步骤1:参考所需的名称空间

using Aspose.Pdf.Plugins;
using System.IO;

步骤2:将 PDF 转换为 XLSX

var inputPath = @"C:\Samples\sample.pdf";
var outputPath = @"C:\Samples\sample.xlsx";

// Use PdfXls (preferred) or XlsConverter – both expose the same conversion core.
var converter = new PdfXls();
var options = new PdfToXlsOptions
{
    Format = PdfToXlsOptions.ExcelFormat.XLSX
};

options.AddInput(new FileDataSource(inputPath));
options.AddOutput(new FileDataSource(outputPath));

// Perform conversion
var result = converter.Process(options);
Console.WriteLine("PDF converted to XLSX: " + outputPath);

使用案例和应用程序(与代码变量)

1. 出口到 CSV、XLS、ODS 或 XML

指定所需的输出格式,使用 Format 财产:

options.Format = PdfToXlsOptions.ExcelFormat.CSV;  // For CSV output
// options.Format = PdfToXlsOptions.ExcelFormat.XMLSpreadSheet2003;  // For Excel XML 2003
// options.Format = PdfToXlsOptions.ExcelFormat.ODS;  // For OpenDocument Spreadsheet
// options.Format = PdfToXlsOptions.ExcelFormat.XLSM; // For macro-enabled Excel

See PdfToXlsOptions.Excel格式 所有支持的格式。

2. Batch 将多个 PDF 转换为 Excel

string[] files = Directory.GetFiles(@"C:\Docs\", "*.pdf");
foreach (var file in files)
{
    var outXlsx = Path.ChangeExtension(file, ".xlsx");
    var opts = new PdfToXlsOptions { Format = PdfToXlsOptions.ExcelFormat.XLSX };
    opts.AddInput(new FileDataSource(file));
    opts.AddOutput(new FileDataSource(outXlsx));
    using (var converter = new PdfXls())
    {
        converter.Process(opts);
    }
}

3. 最少工作表数量

默认情况下,每个 PDF 页面都会变成一个新的 Excel 工作表。

options.MinimizeTheNumberOfWorksheets = true;

4. 在启动时插入白色列

对于某些数据进口情况,您可能希望将白色列添加为第一个列:

options.InsertBlankColumnAtFirst = true;

最好的做法和提示

  • 预览输出以验证桌面配置和数据完整性,特别是使用先进的配置选项。
  • 对于大型文件,使用集合处理以有效地自动化大批转换。
  • 在转换为CSV时,检查分离器和编码下流兼容性。
  • 对于高度结构化或扫描的PDF文件,预处理文件获得最佳结果。

完整实施例子

using Aspose.Pdf.Plugins;
using System;
using System.IO;

class Program
{
    static void Main()
    {
        var inputPath = @"C:\Samples\sample.pdf";
        var outputPath = @"C:\Samples\sample.xlsx";
        var options = new PdfToXlsOptions
        {
            Format = PdfToXlsOptions.ExcelFormat.XLSX,
            MinimizeTheNumberOfWorksheets = true
        };
        options.AddInput(new FileDataSource(inputPath));
        options.AddOutput(new FileDataSource(outputPath));
        using var converter = new PdfXls();
        var result = converter.Process(options);
        Console.WriteLine("PDF converted to Excel successfully!");
    }
}

结论

Aspose.PDF XLS Converter for .NET 可在 C# 项目中快速、强大、灵活地自动化 PDF-to-Excel (XLS / XLSX / CSV / XML / ODS) 数据从 PDF 中解锁、流动分析和集成分布式工作流 - 所有这些都具有简单、高性能的 API。

经常提出的问题

**Q:除了 XLSX 之外,我还可以出口哪些格式?**答:支持的格式包括 XLSX、XLSM、CSV、ODS 和 Excel 2003 XML。 Format 选择的财产。

**Q:如何将所有 PDF 内容存储在一个单一工作表中?**A:设置 MinimizeTheNumberOfWorksheets = true 在你的 PdfToXlsOptions.

**Q:在哪里可以找到更多的例子或获得支持?**答: 查看官方 Aspose.PDF 文档、API 参考或先进场景的联系支持。

 中文