#r #web-scraping
#r #очистка веб-страниц
Вопрос:
Как и в случае со многими новичками в R, такими как я, я пытаюсь прочитать html-страницу, но сталкиваюсь с вышеуказанной ошибкой.
##scraping
library(XML)
my_url <- "https://www.amazon.com/b?node=16225009011amp;pf_rd_r=8XMGCHCR9WSKKEK3024Tamp;pf_rd_p=5232c45b-5929-4ff0-8eae-5f67afd5c3dc"
html_page <- htmlTreeParse(my_url,useInternalNodes=TRUE)
Я опробовал другое решение в StackOverflow, но не понял его правильно. Также я использовал функцию справки для проверки документации htmlTreeParse, и, похоже, я не понимаю, что означает useInternalNodes и его функциональность
Комментарии:
1. Возможно, попробуйте более современный пакет, например
httr
:httr::GET("https://www.amazon.com/b?node=16225009011amp;pf_rd_r=8XMGCHCR9WSKKEK3024Tamp;pf_rd_p=5232c45b-5929-4ff0-8eae-5f67afd5c3dc")
2. Какова ваша цель?
3. @xwhitelight Я следую руководству о том, как очистить страницу продукта в Интернете. поэтому я хочу очистить такие вещи, как название продукта и цена
4. @okoliechukwuka Используется
rvest
для очистки статической страницы HTML. datacamp.com/community/tutorials/r-web-scraping-rvest5. @MrFlick Ответ на запрос get состоит всего из 10 строк HTML-тегов. Мне нужно получить полную HTML-страницу, которая содержит около 1000 html-тегов