Очистка веб-сайта от веб-сайта со статическим URL

#python #html #url #static #web-scraping

#python #HTML #url #статический #очистка веб-сайта

Вопрос:

Итак, я пытаюсь извлечь информацию о почтовом коде с веб-сайта Canada Post. Проблема, с которой я сталкиваюсь, заключается в том, что URL-адрес остается статичным независимо от того, какой адрес вы вводите при попытке найти почтовый индекс. Например, начиная с базовой страницы, если я введу ‘1 MACLEAN ST’ в качестве поискового запроса и нажму enter

введите описание изображения здесь

Вы заметите, что URL-адрес остается прежним

введите описание изображения здесь

Я никогда раньше не очищал веб-сайт от веб-сайта со статическим URL-адресом, и мне было интересно, как я буду это делать (например. получение определенных библиотек для Python и т. Д.). Я думаю, что в какой-то момент мне, скорее всего, придется извлекать информацию о почтовом коде (в данном случае ‘A0J 1T0’) через html-тег, как показано ниже.

введите описание изображения здесь

Ответ №1:

Вы могли бы написать оболочку, используя что-то вроде Selenium для динамического взаимодействия со страницей.

Кроме того, вы можете заглянуть в их API разработчика, который должен позволить вам указать адрес и получить обратно код (а также более сложные варианты использования, такие как создание этикеток для доставки).

https://www.canadapost.ca/cpo/mc/business/productsservices/developers/services/fundamentals.jsf

Ответ №2:

Поскольку вам необходимо выполнить действия перед очисткой, вам необходимо использовать безголовый браузер, такой как phantomjs. Это немного сложнее, чем базовая очистка, но это позволит вам программно вводить адреса, а затем очищать результирующие данные возвращаемой страницы.