#python #selenium #web-scraping #beautifulsoup
#python #selenium #очистка веб-страниц #beautifulsoup
Вопрос:
Мне нужно очистить данные с веб-страницы, «заблокированной» перенаправлением входа в систему. Итак, я использовал selenium
для ввода всей необходимой информации для входа и перехода к тому, где находятся данные. однако, насколько я знаю, selenium
доза не поддерживает извлечение заголовков и других текстовых данных, что означает, что мне пришлось бы использовать другой инструмент для очистки веб-страниц, такой как beautiful soup
. Однако для этих инструментов требуется прямая URL-ссылка, которая в любом случае перенаправит этот инструмент на страницу входа в систему.
Есть ли способ, которым я могу использовать ether selenium
для извлечения данных или включить другой инструмент для взаимодействия с уже зарегистрированным selenium
инструментом для извлечения данных?
Ответ №1:
Вы можете извлечь pagesource и добавить его в красивый суп
html = driver.page_source
soup = BeautifulSoup(html)
Но посмотрите код в браузере (сеть F12) и посмотрите, является ли вход в систему службой restapi, тогда гораздо проще использовать запросы и http.cookiejar и создавать надлежащие файлы cookie, которые вы можете внедрить в selenum.
Комментарии:
1. загрузка page_source в html с первого раза сработала отлично, спасибо.