Очистка очень специфического раздела веб-сайта?

#r #web-scraping

#r #очистка веб-страниц

Вопрос:

У меня есть список URL-адресов (mesa $ fullerurl) для документов, и я пытаюсь очистить определенный раздел текста на каждом веб-сайте (параграфы о факторах риска). Проблема в том, что для этого раздела нет уникального HTML-тега, который я могу видеть. Лучший способ, который я могу придумать, — это сказать R захватить текст из заголовка «Факторы риска» до следующего заголовка, а затем поместить его в новый фрейм данных, k10, но я не уверен, как указать это в R. Спасибо! Вот пример документа, который я пытаюсь очистить: https://www.sec.gov/Archives/edgar/data/72903/000007290319000010/xcel1231201810-k.htm

 sec<-read_html("https://www.sec.gov/cgi-bin/browse-edgar? 
action=getcompanyamp;CIK=0000072903amp;type=10- 
kamp;dateb=amp;owner=excludeamp;count=40")
xcel<- sec %>%
  html_nodes("#documentsbutton") %>%
  html_attr("href")
xcel<-data.frame(xcel)
xcel$xcell<-paste0("https://www.sec.gov",xcel$xcell)
xcel$fullurl<-paste0(xcel$xcell,xcel$xcel)
as.character(xcel$fullurl)

mesa<-map_dfr(xcel$fullurl, ~ .x %>% read_html() %>%  html_table() %>% . 
[[1]])
mesa<-subset(mesa,mesa$Type=="10-K"|mesa$Type=="10-K/A"|mesa$Type=="10- 
K405")
mesa
s<-gsub("(.*)/.*","\1",xcel$fullurl)
table(xcel$fullurl)
xcel$fullurl<-s
xcel$fullurl<-paste0(xcel$fullurl,"/") 
mesa$fullerurl<-paste0(xcel$fullurl,mesa$Document)
as.character(mesa$fullerurl)
mesa$Document[mesa$Document == ""] <- NA
mesa$fullerurl 
#Below is the problematic part 
k10<-map_dfr(mesa$fullerurl, ~ .x %>% read_html("") %>%  html_nodes("") 
%>% html_text(""))

Вопрос:

Вам также может понравиться

запрос linq для разделения вложенных списков на несколько таблиц

WCF использует собственный web.config

Почтальон Возвращает ответ тела ( URL-адрес миниатюры) в карту Flutter json в объект Dart, и он не работает в построителе представлений сетки