Как использовать purrr и rvest в R для удаления стенограмм с веб-страницы?

#r #web-scraping #purrr #rvest

Вопрос:

Я пытаюсь извлечь все стенограммы, доступные на этой веб-странице. Я смог успешно извлечь даты и названия выступлений, используя следующий код в R :

 library(purr)
library(rvest)

url_kremlin <- "http://kremlin.ru/events/president/transcripts/page/"

map(1:10, safely(function(i) {
  pg <- read_html(paste0(url_kremlin, i))
  
  data.frame(date = html_text(html_nodes(pg, ".dt-published")),
             title = html_text(html_nodes(pg, ".p-name")),
             link = html_nodes(pg, ".p-name") %>%
             html_node("p") %>% html_attr("href"))
})) -> kremlin_df
 

Однако я не могу извлечь текст стенограмм. Кто-нибудь знает, что я делаю не так? Что я мог бы использовать для успешного извлечения стенограмм?

Редактировать: Когда я запускаю приведенный выше код, я получаю следующее: введите описание изображения здесь. Он link должен содержать текст выступлений (или, по крайней мере, это то, что я хочу, чтобы он содержал).

Комментарии:

1. Что именно вы пытаетесь извлечь ? На каждой странице есть ссылки на другие статьи. Эти статьи загружаются динамически. Вы хотите извлечь текст из этих статей?

2. Да, я хотел бы извлечь текст с этих страниц.

3. Я добавил дополнительную информацию в исходный пост. Любая помощь будет признательна.