#r #web-scraping #rvest #rselenium
#r #очистка веб-страниц #rvest #rselenium
Вопрос:
Я пытаюсь очистить новостные статьи из FoxNews с помощью Rvest. Однако я не могу найти правильный узел для получения заголовка и URL-адреса для очистки. Может ли быть так, что FoxNews блокирует мне очистку их сайта?
html_fox <- read_html("https://www.foxnews.com/search-results/search?q=trump")
html_fox %>%
html_nodes(".article") %>%
html_text()
Если я введу это, возврат будет {xml_nodeset (0)}
Кто-нибудь может помочь? Я уже несколько дней пытаюсь разобраться в этом и не могу найти ответа.
Спасибо!
Ответ №1:
Одним из возможных решений может быть RSelenium
библиотека
Ниже приведен простой пример
library(RSelenium)
#Start a selenium server and browser
driver <- rsDriver(browser=c("firefox"), port = 4567L)
#Defines the client part.
remote_driver <- driver[["client"]]
#Sent the web site address to the firefox
remote_driver$navigate("https://www.foxnews.com/search-results/search?q=trump")
#To take the first article, you could do this:
all_articles<-remote_driver$findElement(using = 'xpath', value = '//*[@id="wrapper"]/div[2]/div[2]/div')$getElementText()
print(all_articles)