#apache-spark
#apache-spark
Вопрос:
Мы пытаемся настроить HA на spark standalone master с помощью zookeeper. У нас есть два хоста zookeeper, которые мы также используем для spark ha.
Настроил следующее в spark-env.sh
SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk_server1:2181,zk_server2:2181"
Запустил оба мастера.
запущенная оболочка и статус задания ВЫПОЛНЯЕТСЯ. master1 находится в режиме ОЖИДАНИЯ, а master2 — в режиме ОЖИДАНИЯ. Убитые master1 и master2 были обнаружены, и все рабочие оказались живыми в master2.
Оболочка, которая уже запущена, была перемещена на новый мастер. Однако статус находится в состоянии ОЖИДАНИЯ, а исполнители находятся в состоянии ЗАГРУЗКИ.
В журнале рабочих и журнале исполнителей нет ошибок, кроме уведомления о подключении к новому мастеру.
Я мог видеть, что работник перерегистрирован, но исполнитель, похоже, не запущен. Есть ли что-то, чего мне не хватает.?
Моя версия spark 1.5.0
Комментарии:
1. Аналогичная проблема здесь с Spark 1.6.2: приложение остается в состоянии
WAITING
, но мои исполнители находятся в состоянииRUNNING
…2. Если я запустил и настроил zookeeper на одной из машин кластера spark / spark master, это сработало. Но недостаточно стабильны. В приведенном выше случае я использовал отдельный кластер zookeeper.