Безопасно ли использовать urllib для определения того, не отвечает ли сайт?

#python #web-scraping #urllib

#python #очистка веб-страниц #urllib

Вопрос:

Мне было поручено составить список из 25 тысяч веб-сайтов и удалить те, которые не работают / не отвечают. Я решил, что это самый простой способ сделать это:

 with website in websites:
    try:
        req = Request(test, headers={"User-Agent": "Mozilla/5.0 (Linux i686)"})
        with contextlib.closing(urlopen(req)) as response:
            new_list.add(response.geturl())   
    except:
        print(website   " removed") 
 

Насколько это безопасно? Список содержит много спам-сайтов, и я не думаю, что отправлять им мой IP-адрес — хорошая идея.

Могу ли я воспользоваться более безопасным вариантом?

Комментарии:

1. Насколько это безопасно? — что вы подразумеваете под безопасностью ?

2. Если вы не хотите раскрывать свой IP-адрес, не подключайтесь. Вы можете использовать VPN, чтобы скрыть свой непосредственный IP-адрес, но некоторые сайты обнаружат это и откажут вам в подключении или покажут контент, отличный от того, который вы бы увидели в противном случае.

3. @MauriceMeyer Есть ли что-нибудь, о чем мне нужно беспокоиться при открытии 25 тысяч случайных сайтов с помощью urllib?

4. @tripleee спасибо. На самом деле меня не волнует возвращаемый контент, просто нужно знать, является ли сайт отзывчивым или нет. Я раньше не использовал vpn. Мне просто загрузить и настроить что-то вроде NordVPN, или мне нужно что-то настроить с помощью библиотеки urllib.

Ответ №1:

Если вы обеспокоены утечкой вашего IP-адреса, я бы предложил использовать прокси-сервер для запроса сайтов. Вы можете бесплатно получить прокси-серверы на некоторых сайтах в Интернете. Вы также можете использовать vpn для запуска скрипта.

Вот документы urllib по обработке прокси

https://docs.python.org/3/library/urllib.request.html#urllib.request .ProxyHandler