#r #web-scraping
#r #очистка веб-страниц
Вопрос:
Я пытаюсь извлечь таблицу из https://www.basketball-reference.com/leagues/NBA_2018.html . Нужная мне таблица — это (статистика команды за игру). На этой веб-странице есть несколько таблиц, и когда я пытаюсь извлечь из нее таблицы, она выдает первые две таблицы со страницы.
Как я могу получить нужную таблицу, используя R? Я упомянул ниже код, который я использовал
library(rvest)
url <- "https://www.basketball-reference.com/leagues/NBA_2018.html"
# read the link
html <-read_html(url)
tables <- html %>% html_table(fill =TRUE)
View(tables)
Ответ №1:
Он закомментирован. Вы можете получить комментарии с помощью xpath, а затем получить нужную таблицу
library(rvest)
page <- read_html('https://www.basketball-reference.com/leagues/NBA_2018.html')
df <- page %>% html_nodes(xpath = '//comment()') %>%
html_text() %>%
paste(collapse = '') %>%
read_html() %>%
html_node('#team-stats-per_game') %>%
html_table()