Перенаправление сайта на Auth0 не применяется к роботу Googlebot

#web-crawler #url-redirection

#веб-искатель #url-перенаправление

Вопрос:

Я наткнулся на сайт, который автоматически перенаправляет пользователя на сторонний веб-сайт, но заметил, что веб-сканеры, такие как Googlebot, не подлежат перенаправлению, что означает, что веб-сканеры могут получить доступ к фактическому содержимому сайта. Это приводит к:

  1. Google перечисляет отдельные страницы этого сайта в качестве результатов поиска. Фактический контент можно просмотреть из кэша Google, но пользователь перенаправляется на несвязанный сайт (как упоминалось выше), если он нажимает на ссылки результатов поиска.

  2. Если пользователь использует архивные сайты, такие как Wayback Machine, он может вручную кэшировать фактическое содержимое сайта, полученное обходчиком Wayback Machine, а затем просматривать сайт в обычном режиме, хотя и как статическую кэшированную версию.

Я подозреваю, что это как-то связано с Auth0, поскольку сайт импортирует скрипт Auth0, но я не уверен, как на самом деле работает Auth0.

Мои вопросы заключаются в следующем:

  1. Как администратор сайта делает это? Как он мог блокировать и перенаправлять обычный доступ, позволяя при этом веб-сканерам проходить, намеренно или иным образом?

  2. Как же тогда администратор сайта обычно получает доступ к своему собственному сайту? Какие настройки безопасности он мог бы реализовать для сайта?

Поскольку это довольно расплывчатый вопрос из-за не раскрытия фактического веб-сайта, я уверен, что есть несколько возможностей для его реализации на основе моего описания, и я хотел бы услышать, что вы, ребята, думаете. Это расследование чисто из личного любопытства и интереса.

Ответ №1:

Веб-приложение может проверить, обращается ли к нему робот Googlebot или другие пользовательские агенты Google, это позволит серверу предоставлять пользовательский контент и / или разрешать доступ к страницам, которые обычно требуют аутентификации.

Инструкции см. в разделе Проверка Googlebot.