GKE: как обрабатывается сжатие etcd, когда сервер api не работает / что происходит, когда etcd заполнен

#google-kubernetes-engine #etcd

# #google-kubernetes-engine #etcd

Вопрос:

В наших текущих кластерах у нас есть сценарий аварийного уплотнения etcd, который предотвращает блокировку etcd. Мы рассматриваем возможность перехода на GKE и задаемся вопросом, поставляется ли что-то подобное из коробки или что именно происходит, когда etcd заполняется.

Ответ №1:

В общих чертах, GKE — это управляемая служба, особенно плоскость управления, как часть полностью управляемого продукта, разработанного компанией Google SREs Site Reliability Engineering.

С учетом сказанного, GKE control plane и его операции являются частью обязанностей Google, в которых вы не будете участвовать, это делается для того, чтобы вернуть время, чтобы сосредоточиться на вашем приложении, в то время как SRES Google отслеживают ваш кластер и его вычислительные, сетевые ресурсы и ресурсы хранения.

Чтобы ответить на ваш вопрос, поставляется ли GKE с чем-то подобным (сценарий сжатия etcd) из коробки или что именно происходит, когда etcd заполняется:

Не уверен, есть ли в GKE такое решение, как ваше (сценарий сжатия etcd), но если оно существует, оно будет управляться SREs Google, и вы не будете (в зависимости от выбранного вами типа кластера) замечать, если они создают резервные копии или предоставляют обслуживание компоненту etcd o algun otro control plane.

По моему опыту, наиболее распространенные проблемы, связанные с a full etcd , связаны с тем, что задания не удаляются. Как мы знаем, когда задание завершается, модули больше не создаются, но модули также не удаляются. Их сохранение позволяет вам по-прежнему просматривать журналы завершенных модулей для проверки ошибок, предупреждений или других результатов диагностики. Объект задания также остается после его завершения, чтобы вы могли просмотреть его статус. Вы должны удалить старые задания, отметив их статус. Когда происходят подобные вещи, база данных etcd может быть перегружена таким объемом данных и, следовательно, перестает отвечать на запросы (это полностью зависит от количества заданий, выполняемых в вашем кластере).

В случае, если etcd перестанет работать или заполнится, Google будет отвечать за его исправление, как я упоминал выше, вы заметите время простоя на плоскости управления в зависимости от выбранного вами типа кластера. GKE предлагает зональные кластеры (единственная копия плоскости управления, работающая в одной зоне), многозональные кластеры (единственная копия плоскости управления, работающая в одной зоне), региональный кластер (несколько копий плоскости управления, работающих в нескольких зонах в пределах данного региона). Если вы выберете региональный кластер GKE, у вас будет HA для вашей плоскости управления GKE (3 копии каждого ресурса плоскости управления).

Комментарии:

1. На самом деле это не ответ на мой вопрос, но я думаю, что так оно и есть, не спрашивая инженеров GKE.