#python #web-scraping #python-requests
#python #веб-очистка #python-запросы
Вопрос:
Я пытаюсь извлечь веб-страницу из Интернета, но на некоторых страницах (например, на веб-сайте Tesco) я получаю предупреждение, а затем оно просто зависает.
Предупреждение
Предупреждение о небезопасном запросе: на хост отправляется непроверенный запрос HTTPS ‘www.tesco.com «. Настоятельно рекомендуется добавить проверку сертификата. Смотрите: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
Я использую запросы для установления соединения и получения страницы.
Минимальный рабочий код:
import requests
def extract_page(url):
page = requests.get(url, verify=False)
print(f'status code : {page.status_code}')
if page.status_code != 200:
print(f"URL '{url} returned status code {page.status_code}")
return
extract_page('https://www.tesco.com/')
Любые указания о том, чего мне не хватает, были бы весьма признательны, тем более что некоторые сайты, такие как Википедия, работают просто отлично, и я не мог видеть никаких других страниц, на которых это рассматривается.
Комментарии:
1. Удаление
verify=False
должно удалитьInsecureRequestWarning
. Надеюсь, это поможет.2. @user70 Удаляет предупреждение, но не останавливает зависание : (
3. Интересно, есть ли у них там какое-то обнаружение ботов. Попробуйте изменить заголовок User-Agent на заголовок реального браузера. Мне приходилось делать это в прошлом.