Как конвертировать PDF в Excel (XLS / XLS / CSV) в .NET
Эта статья показывает, как программически конвертировать PDF-документы в форматы Microsoft Excel (XLS, XLSX, CSV и т. д.) с помощью Aspose.PDF XLS Converter для .NET. Это позволяет отключить, проанализировать и автоматически передавать данные из PDF в шины для дальнейшей обработки, отчетности или архивации.
Реальные мировые проблемы
Экспортирование таблиц или структурированных данных из PDF-файлов в Excel вручную является трудоемким и ошибочным. Автоматизация этой конверсии жизненно важна для рабочих потоков в области финансов, отчетности, аналитики и соответствия, где необходимы большие операции по распределительным файлам PDF.
Решение обзор
ASPOSE.PDF XLS Converter для .NET позволяет:
- Конвертировать единые или множественные PDF-файлы в Excel (XLSX, XLS, CSV, ODS, XML)
- Управление структурой рабочего стола и форматирование
- Интегрируйте плавно с проектами C#/NET для скалируемой автоматизации
Предупреждения
- Visual Studio 2019 или позднее
- .NET 6.0 или более поздний
- Aspose.PDF для .NET, установленный через NuGet
PM> Install-Package Aspose.PDF
Step-by-Step реализация
Шаг 1: Необходимые названия
using Aspose.Pdf.Plugins;
using System.IO;
Шаг 2: Конвертировать PDF в XLSX
var inputPath = @"C:\Samples\sample.pdf";
var outputPath = @"C:\Samples\sample.xlsx";
// Use PdfXls (preferred) or XlsConverter – both expose the same conversion core.
var converter = new PdfXls();
var options = new PdfToXlsOptions
{
Format = PdfToXlsOptions.ExcelFormat.XLSX
};
options.AddInput(new FileDataSource(inputPath));
options.AddOutput(new FileDataSource(outputPath));
// Perform conversion
var result = converter.Process(options);
Console.WriteLine("PDF converted to XLSX: " + outputPath);
Использование случаев и приложений (с кодовыми вариациями)
1. Экспорт в CSV, XLS, ODS или XML
Определите желаемый формат выхода, используя Format
Недвижимость →
options.Format = PdfToXlsOptions.ExcelFormat.CSV; // For CSV output
// options.Format = PdfToXlsOptions.ExcelFormat.XMLSpreadSheet2003; // For Excel XML 2003
// options.Format = PdfToXlsOptions.ExcelFormat.ODS; // For OpenDocument Spreadsheet
// options.Format = PdfToXlsOptions.ExcelFormat.XLSM; // For macro-enabled Excel
See PdfToXlsOptions.ExcelФормат для всех поддерживаемых форматов.
2. Batch Convert Multiple PDFs to Excel
string[] files = Directory.GetFiles(@"C:\Docs\", "*.pdf");
foreach (var file in files)
{
var outXlsx = Path.ChangeExtension(file, ".xlsx");
var opts = new PdfToXlsOptions { Format = PdfToXlsOptions.ExcelFormat.XLSX };
opts.AddInput(new FileDataSource(file));
opts.AddOutput(new FileDataSource(outXlsx));
using (var converter = new PdfXls())
{
converter.Process(opts);
}
}
3. минимизировать количество рабочих столов
По умолчанию, каждая страница PDF превращается в новую рабочую книгу Excel. Для сохранения всего контента в одной рабочей книге:
options.MinimizeTheNumberOfWorksheets = true;
4. Введите белую колонку в старт
Для определенных сценариев импорта данных вы можете добавить белую колонку в качестве первой колоны:
options.InsertBlankColumnAtFirst = true;
Лучшие практики и советы
- Просмотр выхода для проверки распределения таблицы и целостности данных, особенно при использовании передовых вариантов расстановки.
- Для больших документов используйте обработку комплектов, чтобы эффективно автоматизировать массивную конверсию.
- При конвертировании в CSV проверяйте делимтери и кодируйте для низкого потока совместимости.
- Для высоко структурированных или сканируемых PDF-файлов, допроцессуальные документы для лучших результатов.
Полный пример реализации
using Aspose.Pdf.Plugins;
using System;
using System.IO;
class Program
{
static void Main()
{
var inputPath = @"C:\Samples\sample.pdf";
var outputPath = @"C:\Samples\sample.xlsx";
var options = new PdfToXlsOptions
{
Format = PdfToXlsOptions.ExcelFormat.XLSX,
MinimizeTheNumberOfWorksheets = true
};
options.AddInput(new FileDataSource(inputPath));
options.AddOutput(new FileDataSource(outputPath));
using var converter = new PdfXls();
var result = converter.Process(options);
Console.WriteLine("PDF converted to Excel successfully!");
}
}
Заключение
ASPOSE.PDF XLS Converter для .NET позволяет быстро, прочно и гибко автоматизировать PDF-to-Excel (XLS / XLSX / CSV / XML / ODS) в проектах C#. Разблокировать данные из PDF, аналитические протоколы и интегрировать рабочие потоки ширины — все с простым, высокопроизводительным API.
Часто задаваемые вопросы
**Q: Какие форматы я могу экспортировать в дополнение к XLSX?**Ответ: Поддерживаемые форматы включают XLSX, XLSM, CSV, ODS и Excel 2003 XML. Format
Имущество для подбора.
**Q: Как я могу сохранять весь контент PDF в одну рабочую книжку?**А: Сет MinimizeTheNumberOfWorksheets = true
На твой PdfToXlsOptions
.
Q: Где я могу найти больше примеров или получить поддержку?Ответ: см. официальную документацию Aspose.PDF, ссылку API или поддержку контакта для передовых сценариев.