Возникли трудности с синтаксическим анализом веб-сайта с помощью selenium и python

#selenium

#selenium

Вопрос:

Предыстория:

Я пытаюсь извлечь информацию из ссылки, но, похоже, не могу получить исходный код HTML для его дальнейшего анализа.

Ссылка:

https://www.realestate.com.au/buy/property-house-in-vaucluse , Новый Южный Уэльс 2030/список-1?источник= уточнение

Код:

     chrome_options = webdriver.ChromeOptions()

    preferences = {"safebrowsing.enabled": "false"}

    chrome_options.add_experimental_option("prefs", preferences)

    chrome_options.add_argument('--disable-gpu')

    browser = webdriver.Chrome('link_to_chrome_driver.exee',  chrome_options=chrome_options)

    url = property_link
    print(url)
    browser.get(url)
    delay = 20 # seconds

    try:
        WebDriverWait(browser, delay).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'rui-button-brand pagination__link-next')))
        time.sleep(10)
    except:
        pass

    html = browser.page_source

    soup = BeautifulSoup(html)

    print(soup)
  

Вывод:

 <html lang="en"><head>
<meta charset="utf-8"/>
<link href="about:blank" rel="shortcut icon"/>
</head>
<body>
<script src="/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/j.js"></script>
<script src="/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/f.js"></script>
<script src="/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/fingerprint/script/kpf.js?url=/149e9513-01fa-4fb0-aad4-566afd725d1b/2d206a39-8ed7-437e-a3be-862e0f06eea3/fingerprintamp;amp;token=d33b4707-4c3a-5fbb-8de6-b6889ed26c7d"></script><div></div>
</body></html>
  

Вопрос:

Я не понимаю, что происходит не так, но когда я вручную загружаю сайт из любого браузера, html-скрипт значительно отличается. Однако анализ сайта с помощью selenium / bs слишком проблематичен — что я делаю не так?

Комментарии:

1. Действительна ли ссылка? Страница даже не открывается для меня.

2. @sushil отлично работает со мной https://www.realestate.com.au/buy/property-house-in-vaucluse, nsw 2030/list-1?source=refinement или https://www.realestate.com.au/buy/property-house-in-vaucluse, nsw 2030/list-1

Ответ №1:

Ваш CSS-селектор неверен.

Попробуйте отредактировать селектор css, как показано ниже:

 .rui-button-brand.pagination__link-next
  

Обратитесь к: https://www.w3schools.com/cssref/css_selectors.asp