Содержимое XML, похоже, не является XML: 'eae-5f67afd5c3dc'

#r #web-scraping

#r #очистка веб-страниц

Вопрос:

Как и в случае со многими новичками в R, такими как я, я пытаюсь прочитать html-страницу, но сталкиваюсь с вышеуказанной ошибкой.

 ##scraping 
library(XML)
my_url <- "https://www.amazon.com/b?node=16225009011amp;pf_rd_r=8XMGCHCR9WSKKEK3024Tamp;pf_rd_p=5232c45b-5929-4ff0-8eae-5f67afd5c3dc"
html_page <- htmlTreeParse(my_url,useInternalNodes=TRUE)

Я опробовал другое решение в StackOverflow, но не понял его правильно. Также я использовал функцию справки для проверки документации htmlTreeParse, и, похоже, я не понимаю, что означает useInternalNodes и его функциональность

Комментарии:

1. Возможно, попробуйте более современный пакет, например httr : httr::GET("https://www.amazon.com/b?node=16225009011amp;pf_rd_r=8XMGCHCR9WSKKEK3024Tamp;pf_rd_p=5232c45b-5929-4ff0-8eae-5f67afd5c3dc")

2. Какова ваша цель?

3. @xwhitelight Я следую руководству о том, как очистить страницу продукта в Интернете. поэтому я хочу очистить такие вещи, как название продукта и цена

4. @okoliechukwuka Используется rvest для очистки статической страницы HTML. datacamp.com/community/tutorials/r-web-scraping-rvest

5. @MrFlick Ответ на запрос get состоит всего из 10 строк HTML-тегов. Мне нужно получить полную HTML-страницу, которая содержит около 1000 html-тегов

Вопрос:

Комментарии:

Вам также может понравиться

Инструментарий: Предохранитель gcov / ASan или разделение на независимые сборки ( последующие тесты)?

PHP — объединение последних сообщений с недавней работой

В ООП частные элементы являются частными для кого?