#selenium
#selenium
Вопрос:
Предыстория:
Я пытаюсь извлечь информацию из ссылки, но, похоже, не могу получить исходный код HTML для его дальнейшего анализа.
Ссылка:
Код:
chrome_options = webdriver.ChromeOptions()
preferences = {"safebrowsing.enabled": "false"}
chrome_options.add_experimental_option("prefs", preferences)
chrome_options.add_argument('--disable-gpu')
browser = webdriver.Chrome('link_to_chrome_driver.exee', chrome_options=chrome_options)
url = property_link
print(url)
browser.get(url)
delay = 20 # seconds
try:
WebDriverWait(browser, delay).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'rui-button-brand pagination__link-next')))
time.sleep(10)
except:
pass
html = browser.page_source
soup = BeautifulSoup(html)
print(soup)
Вывод:
<html lang="en"><head>
<meta charset="utf-8"/>
<link href="about:blank" rel="shortcut icon"/>
</head>
<body>
<script src="/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/j.js"></script>
<script src="/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/f.js"></script>
<script src="/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/fingerprint/script/kpf.js?url=/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/fingerprintamp;amp;token=d33b4707-4c3a-5fbb-8de6-b6889ed26c7d"></script><div></div>
</body></html>
Вопрос:
Я не понимаю, что происходит не так, но когда я вручную загружаю сайт из любого браузера, html-скрипт значительно отличается. Однако анализ сайта с помощью selenium / bs слишком проблематичен — что я делаю не так?
Комментарии:
1. Действительна ли ссылка? Страница даже не открывается для меня.
2. @sushil отлично работает со мной
https://www.realestate.com.au/buy/property-house-in-vaucluse, nsw 2030/list-1?source=refinement
илиhttps://www.realestate.com.au/buy/property-house-in-vaucluse, nsw 2030/list-1
Ответ №1:
Ваш CSS-селектор неверен.
Попробуйте отредактировать селектор css, как показано ниже:
.rui-button-brand.pagination__link-next
Обратитесь к: https://www.w3schools.com/cssref/css_selectors.asp