#python #web-scraping #urllib
#python #очистка веб-страниц #urllib
Вопрос:
Мне было поручено составить список из 25 тысяч веб-сайтов и удалить те, которые не работают / не отвечают. Я решил, что это самый простой способ сделать это:
with website in websites:
try:
req = Request(test, headers={"User-Agent": "Mozilla/5.0 (Linux i686)"})
with contextlib.closing(urlopen(req)) as response:
new_list.add(response.geturl())
except:
print(website " removed")
Насколько это безопасно? Список содержит много спам-сайтов, и я не думаю, что отправлять им мой IP-адрес — хорошая идея.
Могу ли я воспользоваться более безопасным вариантом?
Комментарии:
1. Насколько это безопасно? — что вы подразумеваете под безопасностью ?
2. Если вы не хотите раскрывать свой IP-адрес, не подключайтесь. Вы можете использовать VPN, чтобы скрыть свой непосредственный IP-адрес, но некоторые сайты обнаружат это и откажут вам в подключении или покажут контент, отличный от того, который вы бы увидели в противном случае.
3. @MauriceMeyer Есть ли что-нибудь, о чем мне нужно беспокоиться при открытии 25 тысяч случайных сайтов с помощью urllib?
4. @tripleee спасибо. На самом деле меня не волнует возвращаемый контент, просто нужно знать, является ли сайт отзывчивым или нет. Я раньше не использовал vpn. Мне просто загрузить и настроить что-то вроде NordVPN, или мне нужно что-то настроить с помощью библиотеки urllib.
Ответ №1:
Если вы обеспокоены утечкой вашего IP-адреса, я бы предложил использовать прокси-сервер для запроса сайтов. Вы можете бесплатно получить прокси-серверы на некоторых сайтах в Интернете. Вы также можете использовать vpn для запуска скрипта.
Вот документы urllib по обработке прокси
https://docs.python.org/3/library/urllib.request.html#urllib.request .ProxyHandler