#php #curl #networking #web-scraping #reverse-proxy
#php #curl #сеть #очистка веб-страниц #обратный прокси
Вопрос:
Пытаюсь очистить страницу с помощью php curl. Но я получаю ошибку тайм-аута каждый раз, когда я нажимаю на этот URL. URL, который я пытаюсь использовать, открывается в браузере, но не через мой запрос php curl.
Мой запрос идентичен тому, который передается в браузере. Я использую Burp suite для получения информации о запросе и ответе. Я также установил заголовок, который является обязательным.
Я предполагаю, что это происходит из-за того, что IP-адрес моего сервера отличается от того, что ожидается от этого URL.
Кто-нибудь может сообщить мне, почему это могло произойти. У меня нет больших знаний о сетевом взаимодействии. Следовательно, возникают проблемы с очисткой страницы.
Кроме того, я хотел бы сообщить вам, ребята, что этот URL изменяет свой URL после успешной загрузки с использованием JavaScript. Например: http://example.tld/page?p1=234amp;p2=532 становится http://example.tld/api/page. Я хочу знать, может ли это быть причиной, или это IP-адрес сервера ИЛИ что-то еще.
Ниже приведен код, который я пытаюсь.
function get_web_page( $url ){
$options = array(
CURLOPT_RETURNTRANSFER => true, // return web page
CURLOPT_HEADER => true, // don't return headers
CURLOPT_FOLLOWLOCATION => false, // follow redirects
CURLOPT_ENCODING => "", // handle all encodings
CURLOPT_USERAGENT => "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36", // who am i
CURLOPT_AUTOREFERER => true, // set referer on redirect
CURLOPT_CONNECTTIMEOUT => 30, // timeout on connect
CURLOPT_HTTPHEADER => array(
"Pragma: no-cache",
"Cache-Control: no-cache",
"Upgrade-Insecure-Requests: 1",
"User-Agent: Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36",
"Accept: text/html,application/xhtml xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
"Accept-Encoding: gzip, deflate",
"Accept-Language: en-US,en;q=0.9",
"Cookie: JSESSIONID=0C072792B81AAAC43110DE7106E4F30C",
"Connection: close",
),
CURLOPT_TIMEOUT => 30, // timeout on response
CURLOPT_MAXREDIRS => 10, // stop after 10 redirects
CURLOPT_SSL_VERIFYPEER => false, // Disabled SSL Cert checks
);
/*$last_url = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL);.*/
$ch = curl_init( $url );
curl_setopt_array( $ch, $options );
$content = curl_exec( $ch );
$err = curl_errno( $ch );
$errmsg = curl_error( $ch );
$header = curl_getinfo( $ch );
curl_close( $ch );
$header['errno'] = $err;
$header['errmsg'] = $errmsg;
$header['content'] = $content;
return $header;
}
Комментарии:
1. Жесткое кодирование
Cookie: JESESSONID
? Звучит странно.2. Спасибо @Raptor. Файл cookie с жестким кодом: JESESSONID. Это может быть проблемой?
3. JSESSIONID — это файл cookie в веб-приложении J2EE, который используется для отслеживания сеанса. Она генерируется при создании сеанса. Таким образом, не кодируйте это жестко.
4. @Raptor Спасибо за предложение. Я изучу это. Что-нибудь еще, что вы хотите указать в коде. Что вы думаете об IP, это может быть проблемой?
5. Что, если
CURLOPT_FOLLOWLOCATION
установлено значениеtrue
?