Очистка файлов Excel

#r #rvest

#r #rvest

Вопрос:

Я пытаюсь загрузить серию файлов Excel, расположенных за рядом ссылок на этой веб-странице: https://www.grants.gov.au/reports/gaweeklyexport

Когда я следую инструкциям онлайн, я могу получить текст первой ссылки в списке, но не более. Кто-нибудь может помочь мне написать код, который будет отображать каждый из адресов в файлах Excel?

Например, успех для первой ссылки выглядит следующим образом: https://www.grants.gov.au/Reports/GaWeeklyExportDownload ?gaweeklyexportuuuid=0db183a2-11c6-42f8-bf52-379aafe0d21b

Но мне также нужны другие ссылки в этом списке.

Моя попытка, которая находит только первый элемент в списке:

 library(tidyverse)
library(rvest)

url <- "https://www.grants.gov.au/reports/gaweeklyexport"

webpage <- read_html(url)

html_text(html_node(webpage, '.u'))
  

Ответ №1:

Вы захотите использовать html_nodes() , а не html_node() получать все совпадающие элементы.

Вы также можете использовать html_attr() , а не html_text() для получения URL-адреса, а не текста в ссылке, как в:

 html_attr(html_nodes(webpage, '.u'), "href")