R: Как загрузить PDF с помощью rvest во время сеанса аутентификации

#r #web-scraping #rvest

#r #соскабливание паутины #rvest

Вопрос:

Я пытаюсь извлечь PDF-файлы из архива газеты, который использует защиту паролем, используя rvest. Проблема в том, что, хотя я могу войти в сеанс, я не смог найти способ использовать команду download.file() в сеансе. Веб-сайт несколько странный, поэтому до сих пор я нашел единственный вариант для входа в систему, используя ссылку в формате PDF.

Вот мой текущий код (к сожалению, поскольку я не могу предоставить данные для входа, он воспроизводим лишь в ограниченных пределах).:

 #login to DLG archive login lt;- "https://dlgarchiv.lv.de/pdf/616694ca9b67fDLG_14-19_10_2021.pdf" pgsession lt;- session(login) pgform lt;- html_form(pgsession)[[1]] filled_form lt;- html_form_set(pgform, customerno="*******", plz="*****") session_submit(filled_form)  #download file download.file(url="https://dlgarchiv.lv.de/pdf/616694ca9b67fDLG_14-19_10_2021.pdf",destfile="test.pdf",mode="wb")  

В результате я загружаю только HTML-документ страницы входа в систему, то есть мой вход в систему «забывается» между ними.

Глядя на вывод после команды session_submit (), я действительно получаю PDF-файл, но не могу его загрузить…

 lt;sessiongt; https://dlgarchiv.lv.de/pdf/616694ca9b67fDLG_14-19_10_2021.pdf  Status: 200  Type: application/pdf  Size: 1394950