#r #web-scraping #rvest
Вопрос:
Использовал аналогичную структуру кода для очистки других сайтов. Но, похоже, возникла проблема с получением доступа к ссылкам.
Решил эту проблему для URL-адреса веб-страницы с первой строкой кода. Однако, когда я пытаюсь получить данные с определенных сайтов компании, я получаю ошибку SLL. Я попытался включить код, используемый для URL-адреса веб-страницы, но мне это не удалось.
Есть ли обходной путь?
webpage lt;- "https://fsncapital.com/en/investments/investments-divestments/" page lt;- webpage %gt;% httr::GET(config = httr::config(ssl_verifypeer = FALSE)) %gt;% read_html() ## Retrieve the embedded linked Comp_Links = page %gt;% html_nodes(".investments-grid .name") %gt;% html_attr("href") ## get company name get_ownership =function(comp_link) { comp_page = read_html(comp_link) ownership = comp_page %gt;% html_node("p:nth-child(4)") %gt;% html_text() return(ownership) } Ownership = sapply(Comp_Links, FUN = get_ownership)
Комментарии:
1. Я не получаю такой ошибки/сообщения. Когда я запускаю ваш код , я получаю значения как
"FSN Ownership 68%"
и"FSN Ownership 77%"
т.Ownership
Д. Вы находитесь за брандмауэром ?2. я тоже. Скрипт возвращает владение FSN 68%,…., владение FSN 99,72% и так далее.
3. действительно странно, попробовал еще раз. Но все равно, получите то же самое сообщение об ошибке «Ошибка в open.connection(x, «rb») : Проблема с сертификатом SSL: срок действия сертификата истек » не думайте, что я нахожусь за брандмауэром. Есть ли где-нибудь, где я могу увидеть, использую ли я брандмауэр? Или, может быть, я использую mac