Как конвертировать HTML в JSON с использованием C#

Как конвертировать HTML в JSON с использованием C#

Преобразование HTML в JSON позволяет разработчикам извлекать структурированные данные из веб-форматов и использовать их в приложениях, ориентированных на данные. Aspose.Cells для .NET позволяет разработчикам загружать HTML-файлы и эффективно и программно экспортировать их содержимое в формате JSON.

Зачем преобразовывать HTML в JSON?

  1. Переносимость данных:
    • Переносить табличные данные HTML в серверные службы или API в формате JSON.
  2. Интеграция веб-приложений:
    • Извлекать таблицы или структурированное веб-содержимое для дальнейшей обработки в приложениях.
  3. Готовность к автоматизации:
    • Идеально подходит для автоматизации процессов веб-сканирования или извлечения содержимого.

Пошаговое руководство по преобразованию HTML в JSON

Шаг 1: Установите Aspose.Cells через NuGet

Установите Aspose.Cells для .NET:

dotnet add package Aspose.Cells

Шаг 2: Настройте лицензию

Включите полную функциональность:

Metered matered = new Metered();
matered.SetMeteredKey("PublicKey", "PrivateKey");

Шаг 3: Загрузите HTML-файл

Создайте новую книгу, загрузив HTML-входные данные:

Workbook workbook = new Workbook("Sample.html");

Шаг 4: Получите последнюю ячейку

Определите последнюю ячейку на листе, чтобы задать границы экспорта:

Cell lastCell = workbook.Worksheets[0].Cells.LastCell;

Шаг 5: Определите диапазон для экспорта

Создайте диапазон, охватывающий данные листа:

Range range = workbook.Worksheets[0].Cells.CreateRange(0, 0, lastCell.Row + 1, lastCell.Column + 1);

Шаг 6: Настройте JsonSaveOptions

Установите любые параметры экспорта:

JsonSaveOptions options = new JsonSaveOptions();

Шаг 7: Экспорт в JSON

Сериализуйте определенный диапазон в JSON:

string jsonData = Aspose.Cells.Utility.JsonUtility.ExportRangeToJson(range, options);

Шаг 8: Сохраните JSON в файл

Запишите вывод на диск:

System.IO.File.WriteAllText("htmltojson.json", jsonData);

Общие проблемы и их решения

1. Пустой вывод

  • Решение: Убедитесь, что HTML-файл содержит структурированное содержимое на основе таблиц для корректного распознавания данных.

2. Неправильный диапазон

  • Решение: Дважды проверьте, что диапазон включает все соответствующие ячейки с листа.

3. Форматирование экспорта

  • Решение: Используйте JsonSaveOptions, чтобы управлять индексацией листов, пропускать пустые строки или настраивать гиперссылки.
 Русский