#linux #curl #web-crawler #block #wget
#linux #curl #веб-сканер #заблокировать #wget
Вопрос:
Описание
Я просматриваю веб-сайт:bjx.com и все коды могут быть запущены в локальном.Затем я поместил код в сервис Amazon и запустил, он не удался.
Что я сделал
Я предполагаю, что, возможно, веб-сайт блокирует сервер, и я попробовал несколько способов :
1) curl http://guangfu.bjx.com.cn/xtgc/List.aspx?classid=583
2) wget http://guangfu.bjx.com.cn/xtgc/List.aspx?classid=583
сообщение об ошибке следующим образом:
Resolving news.bjx.com.cn (news.bjx.com.cn)... 114.113.145.103
Connecting to news.bjx.com.cn (news.bjx.com.cn)|114.113.145.103|:80... failed: Connection timed out.
Retrying.
--2019-04-23 05:45:00-- (try: 2) http://news.bjx.com.cn/list
Connecting to news.bjx.com.cn (news.bjx.com.cn)|114.113.145.103|:80...
некоторые ссылки:
https://serverfault.com/questions/124952/testing-a-website-from-linux-command-line
Мой вопрос :
как подтвердить, заблокировал ли меня веб-сайт, и если заблокирован, что я могу сделать, чтобы решить проблему и просканировать веб-сайт, спасибо
Комментарии:
1. Они могут ограничивать скорость.
2. @Barmar итак, можете ли вы помочь мне подтвердить проблему с ограничением скорости? просто позвонить один раз? Спасибо
3. Если вы только что позвонили один раз, то это, очевидно, не ограничивает скорость.
4. Я попробовал вашу
curl
команду и получил403 Forbidden
ответ.5. Я смог обойти это, отправив пользовательский агент Chrome. Но если вы получаете тайм-аут соединения, они блокируют вас на сетевом уровне, так что это не решит проблему.
Ответ №1:
Как насчет того, чтобы программа завершилась неудачно с определенной настройкой тайм-аута?
Например, сбой curl, если он не может получить ответ в течение 10 секунд
curl -m 10
И, чтобы решить эти проблемы, вы можете попробовать запустить spiders с помощью прокси-сервера VPN-сети
Комментарии:
1. заранее благодарю вас. Я попробовал команду ‘curl -m 10’, но не удалось. и я использую сервер Amazon china, поэтому я думаю, что это не связано с VPN
2. Даже если вы используете Amazon China, целевой сайт по-прежнему может заблокировать вас в соответствии с вашим IP, заголовками http или даже user-agent. Вам нужно будет найти способ сделать так, чтобы запущенная машина spider имела возможность доступа к целевому URL, прокси или VPN, которые могут получить доступ к целевому сайту, были бы способом. VPN здесь не имеет ничего общего с «VPN», который, как правило, понимается, используется для охвата GFW.