очистка веб-страниц после перенаправления входа в систему

#python #selenium #web-scraping #beautifulsoup

#python #selenium #очистка веб-страниц #beautifulsoup

Вопрос:

Мне нужно очистить данные с веб-страницы, «заблокированной» перенаправлением входа в систему. Итак, я использовал selenium для ввода всей необходимой информации для входа и перехода к тому, где находятся данные. однако, насколько я знаю, selenium доза не поддерживает извлечение заголовков и других текстовых данных, что означает, что мне пришлось бы использовать другой инструмент для очистки веб-страниц, такой как beautiful soup . Однако для этих инструментов требуется прямая URL-ссылка, которая в любом случае перенаправит этот инструмент на страницу входа в систему.

Есть ли способ, которым я могу использовать ether selenium для извлечения данных или включить другой инструмент для взаимодействия с уже зарегистрированным selenium инструментом для извлечения данных?

Ответ №1:

Вы можете извлечь pagesource и добавить его в красивый суп

 html = driver.page_source
soup = BeautifulSoup(html)
  

Но посмотрите код в браузере (сеть F12) и посмотрите, является ли вход в систему службой restapi, тогда гораздо проще использовать запросы и http.cookiejar и создавать надлежащие файлы cookie, которые вы можете внедрить в selenum.

Комментарии:

1. загрузка page_source в html с первого раза сработала отлично, спасибо.