Зависание при очистке страницы с использованием запросов в Python

#python #web-scraping #python-requests

#python #веб-очистка #python-запросы

Вопрос:

Я пытаюсь извлечь веб-страницу из Интернета, но на некоторых страницах (например, на веб-сайте Tesco) я получаю предупреждение, а затем оно просто зависает.

Предупреждение

Предупреждение о небезопасном запросе: на хост отправляется непроверенный запрос HTTPS ‘www.tesco.com «. Настоятельно рекомендуется добавить проверку сертификата. Смотрите: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings

Я использую запросы для установления соединения и получения страницы.

Минимальный рабочий код:

 import requests

def extract_page(url):
    page = requests.get(url, verify=False)
    print(f'status code : {page.status_code}')

    if page.status_code != 200:
        print(f"URL '{url} returned status code {page.status_code}")
        return

extract_page('https://www.tesco.com/')
 

Любые указания о том, чего мне не хватает, были бы весьма признательны, тем более что некоторые сайты, такие как Википедия, работают просто отлично, и я не мог видеть никаких других страниц, на которых это рассматривается.

Комментарии:

1. Удаление verify=False должно удалить InsecureRequestWarning . Надеюсь, это поможет.

2. @user70 Удаляет предупреждение, но не останавливает зависание : (

3. Интересно, есть ли у них там какое-то обнаружение ботов. Попробуйте изменить заголовок User-Agent на заголовок реального браузера. Мне приходилось делать это в прошлом.

4. поддельный пользовательский агент