Очистка новостных статей с помощью rvest

#r #web-scraping #rvest #rselenium

#r #очистка веб-страниц #rvest #rselenium

Вопрос:

Я пытаюсь очистить новостные статьи из FoxNews с помощью Rvest. Однако я не могу найти правильный узел для получения заголовка и URL-адреса для очистки. Может ли быть так, что FoxNews блокирует мне очистку их сайта?

 html_fox <- read_html("https://www.foxnews.com/search-results/search?q=trump") 

html_fox %>% 
  html_nodes(".article") %>% 
  html_text()
  

Если я введу это, возврат будет {xml_nodeset (0)}

Кто-нибудь может помочь? Я уже несколько дней пытаюсь разобраться в этом и не могу найти ответа.

Спасибо!

Ответ №1:

Одним из возможных решений может быть RSelenium библиотека

Ниже приведен простой пример

 library(RSelenium) 

#Start a selenium server and browser
driver <- rsDriver(browser=c("firefox"), port = 4567L)

#Defines the client part.
remote_driver <- driver[["client"]]

#Sent the web site address to the firefox 
remote_driver$navigate("https://www.foxnews.com/search-results/search?q=trump")

#To take the first article, you could do this: 
all_articles<-remote_driver$findElement(using = 'xpath', value = '//*[@id="wrapper"]/div[2]/div[2]/div')$getElementText()
print(all_articles)