Запускает автономные задания master HA в состоянии ОЖИДАНИЯ

#apache-spark

#apache-spark

Вопрос:

Мы пытаемся настроить HA на spark standalone master с помощью zookeeper. У нас есть два хоста zookeeper, которые мы также используем для spark ha.

Настроил следующее в spark-env.sh

 SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk_server1:2181,zk_server2:2181"
 

Запустил оба мастера.

запущенная оболочка и статус задания ВЫПОЛНЯЕТСЯ. master1 находится в режиме ОЖИДАНИЯ, а master2 — в режиме ОЖИДАНИЯ. Убитые master1 и master2 были обнаружены, и все рабочие оказались живыми в master2.

Оболочка, которая уже запущена, была перемещена на новый мастер. Однако статус находится в состоянии ОЖИДАНИЯ, а исполнители находятся в состоянии ЗАГРУЗКИ.

В журнале рабочих и журнале исполнителей нет ошибок, кроме уведомления о подключении к новому мастеру.

Я мог видеть, что работник перерегистрирован, но исполнитель, похоже, не запущен. Есть ли что-то, чего мне не хватает.?

Моя версия spark 1.5.0

Комментарии:

1. Аналогичная проблема здесь с Spark 1.6.2: приложение остается в состоянии WAITING , но мои исполнители находятся в состоянии RUNNING

2. Если я запустил и настроил zookeeper на одной из машин кластера spark / spark master, это сработало. Но недостаточно стабильны. В приведенном выше случае я использовал отдельный кластер zookeeper.