#r #rvest
#r #rvest
Вопрос:
Я пытаюсь загрузить серию файлов Excel, расположенных за рядом ссылок на этой веб-странице: https://www.grants.gov.au/reports/gaweeklyexport
Когда я следую инструкциям онлайн, я могу получить текст первой ссылки в списке, но не более. Кто-нибудь может помочь мне написать код, который будет отображать каждый из адресов в файлах Excel?
Например, успех для первой ссылки выглядит следующим образом: https://www.grants.gov.au/Reports/GaWeeklyExportDownload ?gaweeklyexportuuuid=0db183a2-11c6-42f8-bf52-379aafe0d21b
Но мне также нужны другие ссылки в этом списке.
Моя попытка, которая находит только первый элемент в списке:
library(tidyverse)
library(rvest)
url <- "https://www.grants.gov.au/reports/gaweeklyexport"
webpage <- read_html(url)
html_text(html_node(webpage, '.u'))
Ответ №1:
Вы захотите использовать html_nodes()
, а не html_node()
получать все совпадающие элементы.
Вы также можете использовать html_attr()
, а не html_text()
для получения URL-адреса, а не текста в ссылке, как в:
html_attr(html_nodes(webpage, '.u'), "href")