Почему мои экземпляры GCE автоматически перезапускаются каждые 6 часов?

#google-compute-engine

#google-compute-engine

Вопрос:

У меня есть следующая настройка:

  1. Шаблон экземпляра для экземпляров n1-standard-1, доступных по HTTP (ам), на SSD-дисках
  2. Группа экземпляров с именованными портами для 80/443, автоматическое масштабирование включено с минимальным / максимальным значением = 2/10 экземпляров, целевой процессор = 60%, время охлаждения = 60 секунд и начальная задержка = 600 секунд
  3. Групповая проверка работоспособности порта 80 каждые 10 секунд с порогом в 3 попытки
  4. Балансировщик нагрузки GCE HTTP (S) с вышеуказанной группой в качестве серверной части HTTP, максимальный процессор = 80%, проверка работоспособности идентична проверке, определенной выше для группы

Все остальное по умолчанию. Из моих графиков я вижу, что мои 2 экземпляра регулярно перезапускаются без видимой причины. Оба экземпляра перезапускаются каждые 6 часов, но с интервалом в час, поэтому они, по крайней мере, никогда не отключаются одновременно. Шаблон экземпляра создается с диска экземпляра, который работал надежно (т. Е. Без регулярных, необъяснимых перезапусков) в течение нескольких месяцев за пределами группы автоматического масштабирования. Я никогда не видел ни одного из моих экземпляров, перечисленных как неработоспособные на панели управления LB, но если бы мне пришлось гадать, я бы предположил, что мои проверки работоспособности каким-то образом неправильно настроены. Спасибо.

Запуск «gcloud compute operations list» приводит к событиям типа «compute.instances.repair.recreateInstance», которые в точности соответствуют периодическим перезапускам. Я понятия не имею, почему это происходит, и не нашел никаких подсказок при поиске.

Ответ №1:

Ваши экземпляры перезапускаются, потому что они, вероятно, неработоспособны. Пожалуйста, проверьте, работает ли серверная часть.GetHealth (group) возвращает РАБОТОСПОСОБНОСТЬ для всех экземпляров. Если нет, то это может быть связано с вашим сервером, а также с некоторыми неправильными настройками в брандмауэрах для диапазона 130.211.0.0 / 22 (https://cloud.google.com/compute/docs/load-balancing/health-checks )

Комментарии:

1. Спасибо за шаги по отладке. Проблема исчезла сама по себе, но если она повторится, я попробую это. В тот день были массовые скоординированные DDoS-атаки, которые могли привести к необычной задержке в сети.