Сохраняет ли googlebot сеансы при обходе?

#asp.net #session #googlebot #google-crawlers

#asp.net #сеанс #googlebot #google-сканеры

Вопрос:

Когда googlebot сканирует страницы, у него есть сеанс? Например, я сохраняю некоторые переменные в сеансе и использую их на страницах своего сайта. Когда googlebot сканирует эти страницы, будут ли у меня по-прежнему переменные сеанса? В моем global.asax я сохраняю некоторые переменные в сеансе при запуске сеанса. Будут ли у меня какие-либо проблемы с Google bot?

Комментарии:

1. Я полагаю, что G-Bot не знает о вашем сеансе, или я неправильно понял вопрос

2. вы знаете, что каждый запрос, имеющий сеанс в asp.net . он хранится в cookie. вы можете видеть с помощью firebug ASP.Параметр NET_SessionId сохраняется при каждом запросе. интересно, когда я пытаюсь получить доступ к своей переменной сеанса, вызовет ли это какие-либо проблемы при сканировании Google bot. по-видимому, когда пользователь просматривает, это не вызывает никаких проблем, потому что сеанс сохраняется.

Ответ №1:

Googlebot активно пытается избежать сеансов и не поддерживает файлы cookie. С первого свидания с Googlebot: заголовки и сжатие (март 2008)

Обычно я избегаю файлов cookie (поэтому нет заголовка «Cookie:»), поскольку я не хочу, чтобы информация о сеансе слишком сильно влияла на содержимое. И, если сервер использует идентификатор сеанса в динамическом URL-адресе, а не cookie, я обычно могу это выяснить, чтобы в конечном итоге не обходить одну и ту же страницу миллион раз с миллионом разных идентификаторов сеанса.

Я полагаю, что большинство обычных поисковых роботов будут похожи в этом отношении. Google пытается создать индекс уникальных URL-адресов. URL — это уникальный ключ, который идентифицирует уникальную страницу содержимого. Файлы cookie (и сеансы) не передаются, когда пользователь нажимает на ссылку в поисковой выдаче. Google в первую очередь индексирует страницы, а не сайты.

Ответ №2:

Ответ на один из ваших вопросов: да, у вас будут проблемы с Google bot.

В целом мы столкнулись с двумя типами проблем с Google bot:

  1. иногда он не сохраняет HTTP-файлы cookie между запросами. Наше приложение использует пользовательские файлы cookie, и было обнаружено множество запросов Google bot, в которых вообще не было файлов cookie.

  2. он делает длинные перерывы между последовательными запросами. Например, он извлекает вашу страницу и запрашивает ее сценарии позже.

Оба приведут к проблемам с вашим сеансом. Во-первых, вам нужен точный файл cookie ASPNETSessionID для передачи между запросами. Googlebot, вероятно, иногда не сможет этого сделать. Во-вторых, если между запросами длительный промежуток времени, ваш сеанс завершится, даже если файл cookie есть.

Комментарии:

1. как я могу быть точным, чтобы передать ASP.NET_SessionId ? на самом деле это не проблема, если он создает новый, но если он не переносит ни одного сеанса, это может вызвать проблемы.

2. ASP.NET Идентификатор сеанса передается в файле cookie. Если GoogleBot не добавляет правильный файл cookie или файл cookie указывает на пустой (тайм-аут) сеанс, вам просто нужно защищаться в коде и показывать сообщение об ошибке, а не желтый экран смерти. Есть вероятность, что некоторые (большинство?) Запросов GB БУДУТ содержать правильный файл cookie и попадут в непустой сеанс. Однако я понятия не имею, можете ли вы изменить способ, которым GoogleBot проверяет ваш сайт.

3. понятно. очень хороший момент. есть ли у вас какое-либо решение для этого? есть идеи: D

4. Этот ответ неверен. Простой ответ заключается в том, что нет, Google bot не использует сеансы, и это ухудшит качество результатов поиска Google. Представьте, что вы нажимаете на результат поиска Google для «замечательных виджетов», который ссылается на корзину покупок Google bots на вашем сайте, где было добавлено 7 замечательных виджетов. Когда вы запрашиваете этот URL, у вас не будет этого сеанса, и вы увидите полностью пустую корзину, бесполезную ссылку. И вы перестанете использовать поиск Google и начнете использовать Bing.

5. @ButtleButkus: этот ответ правильный, но вы не поняли, что я написал. Вы правы, ваш пример верен, но вы думаете, что Google-бот попадает на несколько последовательных страниц . Мой ответ касался наших проблем с Google bot, запрашивающим javascripts, изображения и csse для одной страницы, которую он извлекает. Мы заметили, что бот откладывает поиск ресурсов страницы, поэтому иногда это даже не имеет смысла, ресурсы могут быть нестабильными и просто недоступными после такого долгого времени. Кроме того, ответу 4 года.

Ответ №3:

Как правило, ответ отрицательный, однако другие сканеры (которых много) работают другими способами.

Я должен отметить, что я видел экземпляр сканера Google для Adwords (не обычного googlebot), который предоставлял сеансовый cookie.

Комментарии:

1. Сомнительно, что какой-либо поисковый робот отправит файлы cookie. Если это так, избегайте этих поисковых систем, потому что их результаты будут мусором.

Ответ №4:

Я думаю, это очень маловероятно. Он должен создавать новый сеанс каждый раз при обходе вашего веб-сайта.

Комментарии:

1. вы имеете в виду для каждого запроса страницы?

2. @MonsterMMORPG Держу пари, что бот Google будет использовать строку запроса для отслеживания одного и того же сеанса во время обхода вашего сайта ; однако, как только он покинет ваш сайт и вернется, ему очень понравится делать это в другом сеансе. Мне трудно представить сценарий, в котором сохранение информации о сеансе было бы полезно для сканера, и, напротив, я могу представить технические проблемы, которые возникнут при попытке сохранить информацию о сеансе.

3. @Icarus нет, было бы идиотизмом, если бы он сканировал версию вашего сайта с сохранением состояния , когда вся его цель — представить ссылки без состояния для всеобщего обозрения. Если бот загрузит в свою корзину 7 замечательных виджетов, а затем представит свой текущий URL-адрес в качестве результата поиска виджетов, пользователи поисковой системы просто увидят пустую корзину. Вы видите?