# #google-cloud-platform #alert #metrics
Вопрос:
Мы пытаемся настроить оповещения о времени безотказной работы GKE для нашего кластера kubernetes с помощью новой (т. е. не устаревшей) панели мониторинга GCP. Подобные предупреждения отлично работают для оптимизации процессора/памяти, но что-то в безотказной работе странно.
Политика, показанная ниже, применяется к нашему кластеру продуктов и устанавливает скользящее окно в 10 минут и применяет счетчик в качестве функции агрегатора. Счетчик — это количество минут безотказной работы. Справа я отключил службу. Вы можете видеть, что это вызывает пошаговое изменение, которое постепенно снижается с 10 (полностью вверх) до нуля (полностью вниз в течение десяти минут). Когда показатель достигает 0 (т. е. ниже порогового значения 1), мы должны получить предупреждение.
Однако вместо того, чтобы перейти к 0, значение счетчика отображается в пользовательском интерфейсе как» -«. Я предполагаю, что это означает нуль или что-то в этом роде? Как вы можете видеть в функции шага, шаги идут 10,9,8….3,2,1, а затем исчезают, так и не став 0. Почему бы счетчику не перейти к нулю, а вместо этого перейти к «-» в пользовательском интерфейсе? Само описание метрики показывает его как a Double
, поэтому я бы предпочел, чтобы оно было равно 0…
У нас неправильная метрика, или мы должны просто установить пороговое значение ниже 2 вместо этого в качестве обходного пути? Или, может быть, мне следует выбрать «Отсутствие показателей» как лучший способ отследить это?
Ответ №1:
Я воспроизвел проблему, используя условие отсутствия метрики, которое вызывало предупреждение, когда в метрике не было данных в течение определенного периода времени. Оповещения о времени безотказной работы генерируются только тогда, когда контейнер запущен и работает. Альтернативным сценарием является использование пользовательских метрик и добавление в них данных временных рядов.
Редактировать
Условие отсутствия метрики срабатывает, если какой-либо временной ряд в метрике не содержит данных для определенного окна продолжительности. За исключением показателей, созданных в результате проверки работоспособности, показатели, связанные с ПРЕКРАЩЕННЫМИ или УДАЛЕННЫМИ облачными ресурсами Google (виртуальными машинами), не учитываются в политике отсутствия показателей.
Для создания политики предупреждений для типа условия отсутствия метрики вам необходимо выбрать метрику (контейнер kubernetes — время безотказной работы) и настроить продолжительность сигнала в скользящем окне. Установите функцию «Скользящее окно» в положение «Подсчет». установите тип условия как Отсутствие метрики в параметре Настройка триггера оповещения.
Выберите триггер оповещения для любых нарушений временных рядов и время отсутствия триггера до 5 минут и создайте политику оповещения, выбрав предпочтительный тип канала уведомления. Таким образом, если в контейнере нет данных, то срабатывает условие отсутствия метрики и отправляет предупреждающее сообщение в соответствующий канал уведомлений.
Комментарии:
1. Мне не удалось получить метрическое отсутствие для отправки каких-либо предупреждений… Должно быть, я что-то неправильно сконфигурировал
2. Я обновил свой ответ подробными шагами, которые я использовал для создания политики предупреждений с отсутствием метрики
3. Я принял этот ответ, потому что уверен, что это правильное решение проблемы в thoery; однако я все еще не получаю предупреждений для моей конкретной настройки. Будет ли установка реплик на 0 в конфигурации модуля kubernetes, которая удаляет существующий модуль, вызывать это предупреждение? Или это считается состоянием «ПРЕКРАЩЕНО/ОТМЕНЕНО» и не приведет к отсутствию метрики?