#r #web-scraping #readlines #geturl
#r #очистка веб-страницы #строки чтения #geturl
Вопрос:
Мне было интересно, может ли кто-нибудь решить эту проблему в R?
Я хочу прочитать строки (получить их содержимое) со следующей веб-страницы, используя функции R, такие как
readLines() , read_html(), getURL() , and etc.:
https://nrt3.modaps.eosdis.nasa.gov/archive/allData/6/MOD09GA/2019/107/
(Вам может быть предложено ввести пользователя: U_of_C_R_MODIS amp; pas: Mas_4033708404 для входа в систему). Что касается входа в систему, я использую этот код на R, который хорошо работает для всех других wep-страниц, за исключением этой:
setNASAauth(username= "U_of_C_R_MODIS",password= "Mas_4033708404", update=TRUE)
Например:
url_content <- readLines("https://nrt3.modaps.eosdis.nasa.gov/archive/allData/6/MOD09GA/2019/107")
Однако все эти функции выдают ошибку следующим образом:
Unknown SSL protocol error in connection to nrt3.modaps.eosdis.nasa.gov:443
Или этот:
HTTP error 404.
Или этот:
HTTP status was '404 Not Found'
Я трачу время, чтобы найти решение самостоятельно или в Google, но мне не удалось его решить.
Любые комментарии и предложения будут высоко оценены.
Комментарии:
1. Похоже, эта ошибка исходит от «wget» на основе этого сообщения: github.com/termux/termux-packages/issues/3426 Пожалуйста , любые комментарии могут помочь.
2. Я загрузил последнюю версию Wget, но R не может прочитать веб-страницу