#r #web-scraping #rvest
#r #соскабливание паутины #rvest
Вопрос:
Я пытаюсь извлечь PDF-файлы из архива газеты, который использует защиту паролем, используя rvest. Проблема в том, что, хотя я могу войти в сеанс, я не смог найти способ использовать команду download.file() в сеансе. Веб-сайт несколько странный, поэтому до сих пор я нашел единственный вариант для входа в систему, используя ссылку в формате PDF.
Вот мой текущий код (к сожалению, поскольку я не могу предоставить данные для входа, он воспроизводим лишь в ограниченных пределах).:
#login to DLG archive login lt;- "https://dlgarchiv.lv.de/pdf/616694ca9b67fDLG_14-19_10_2021.pdf" pgsession lt;- session(login) pgform lt;- html_form(pgsession)[[1]] filled_form lt;- html_form_set(pgform, customerno="*******", plz="*****") session_submit(filled_form) #download file download.file(url="https://dlgarchiv.lv.de/pdf/616694ca9b67fDLG_14-19_10_2021.pdf",destfile="test.pdf",mode="wb")
В результате я загружаю только HTML-документ страницы входа в систему, то есть мой вход в систему «забывается» между ними.
Глядя на вывод после команды session_submit (), я действительно получаю PDF-файл, но не могу его загрузить…
lt;sessiongt; https://dlgarchiv.lv.de/pdf/616694ca9b67fDLG_14-19_10_2021.pdf Status: 200 Type: application/pdf Size: 1394950