#r #web-scraping #purrr #rvest
Вопрос:
Я пытаюсь извлечь все стенограммы, доступные на этой веб-странице. Я смог успешно извлечь даты и названия выступлений, используя следующий код в R
:
library(purr)
library(rvest)
url_kremlin <- "http://kremlin.ru/events/president/transcripts/page/"
map(1:10, safely(function(i) {
pg <- read_html(paste0(url_kremlin, i))
data.frame(date = html_text(html_nodes(pg, ".dt-published")),
title = html_text(html_nodes(pg, ".p-name")),
link = html_nodes(pg, ".p-name") %>%
html_node("p") %>% html_attr("href"))
})) -> kremlin_df
Однако я не могу извлечь текст стенограмм. Кто-нибудь знает, что я делаю не так? Что я мог бы использовать для успешного извлечения стенограмм?
Редактировать: Когда я запускаю приведенный выше код, я получаю следующее: . Он
link
должен содержать текст выступлений (или, по крайней мере, это то, что я хочу, чтобы он содержал).
Комментарии:
1. Что именно вы пытаетесь извлечь ? На каждой странице есть ссылки на другие статьи. Эти статьи загружаются динамически. Вы хотите извлечь текст из этих статей?
2. Да, я хотел бы извлечь текст с этих страниц.
3. Я добавил дополнительную информацию в исходный пост. Любая помощь будет признательна.