Как получить данные таблицы html, когда столбцы несовместимы в R (rvest)

#r #rvest

#r #rvest

Вопрос:

Я хочу извлечь табличные данные с веб-сайтаhttps://www.mohfw.gov.in / Он имеет непоследовательную структуру столбцов, поэтому я не могу легко его извлечь. Я пробовал, как показано ниже, но могу получить только детали заголовка, но не фактические данные внутри таблицы.

 library(rvest)
url='https://www.mohfw.gov.in/'
webpage <- read_html(url)
table <- html_node(webpage, "table.statetable.table.table-striped")
frame <- html_table(table,fill = TRUE)
  

введите описание изображения здесь

Ответ №1:

Откройте вкладку Сеть в инструментах разработки и перезагрузите страницу. Вы увидите, что страница загружает данные из этого файла JSON:https://www.mohfw.gov.in/data/datanew.json

Вы можете прочитать это с помощью:

 table <- jsonlite::fromJSON("https://www.mohfw.gov.in/data/datanew.json")