#web-crawler #url-redirection
#веб-искатель #url-перенаправление
Вопрос:
Я наткнулся на сайт, который автоматически перенаправляет пользователя на сторонний веб-сайт, но заметил, что веб-сканеры, такие как Googlebot, не подлежат перенаправлению, что означает, что веб-сканеры могут получить доступ к фактическому содержимому сайта. Это приводит к:
-
Google перечисляет отдельные страницы этого сайта в качестве результатов поиска. Фактический контент можно просмотреть из кэша Google, но пользователь перенаправляется на несвязанный сайт (как упоминалось выше), если он нажимает на ссылки результатов поиска.
-
Если пользователь использует архивные сайты, такие как Wayback Machine, он может вручную кэшировать фактическое содержимое сайта, полученное обходчиком Wayback Machine, а затем просматривать сайт в обычном режиме, хотя и как статическую кэшированную версию.
Я подозреваю, что это как-то связано с Auth0, поскольку сайт импортирует скрипт Auth0, но я не уверен, как на самом деле работает Auth0.
Мои вопросы заключаются в следующем:
-
Как администратор сайта делает это? Как он мог блокировать и перенаправлять обычный доступ, позволяя при этом веб-сканерам проходить, намеренно или иным образом?
-
Как же тогда администратор сайта обычно получает доступ к своему собственному сайту? Какие настройки безопасности он мог бы реализовать для сайта?
Поскольку это довольно расплывчатый вопрос из-за не раскрытия фактического веб-сайта, я уверен, что есть несколько возможностей для его реализации на основе моего описания, и я хотел бы услышать, что вы, ребята, думаете. Это расследование чисто из личного любопытства и интереса.
Ответ №1:
Веб-приложение может проверить, обращается ли к нему робот Googlebot или другие пользовательские агенты Google, это позволит серверу предоставлять пользовательский контент и / или разрешать доступ к страницам, которые обычно требуют аутентификации.
Инструкции см. в разделе Проверка Googlebot.