Кластер Dask не запускается

#cluster-analysis #dask #dask-distributed #dask-kubernetes

#кластерный анализ #dask #dask-распределенный #dask-kubernetes

Вопрос:

Я пытаюсь запустить dask кластер, но он выдает следующую ошибку:

 Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s:
Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s: 
connect() didn't finish in time
 

Комментарии:

1. Похоже на сетевую ошибку. Это сложно отладить, но я бы проверил, находятся ли планировщики / рабочие в одной сети, открыты ли порты и т. Д.

Ответ №1:

Я испытал нечто подобное при создании временного кластера ECS / Fargate с помощью dask-cloudprovider. Ответ в конечном итоге попал в корзину сетевой архитектуры. Вот несколько рекомендаций:

  1. Убедитесь, что у вас есть правила сетевого брандмауэра для любых ролей IAM, которые вы настроили. Это «Группа безопасности» в AWS, но не относится положительно к другим платформам.
  2. Убедитесь, что таблицы маршрутизации вашей сети правильно настроены для ваших интернет-шлюзов и разрешают вход и выход для ваших узлов… это особенно небезопасно, если не настроено должным образом в частной подсети. Если вы пытаетесь работать в частной подсети, обязательно попробуйте определить, правильно ли настроен шлюз NAT, а также любые балансировщики нагрузки, которые у вас могут быть..
  3. Я вижу, что ваша система просматривает порты 2323 … насколько я знаю, dask обычно ищет 8787 по умолчанию, я бы изучил это, если вы не уверены.

Эту проблему довольно сложно устранить, поэтому я бы рекомендовал достаточное количество ошибок и ошибок. Проверьте журналы для каждого рабочего и планировщика и попытайтесь получить другие подсказки о том, что может быть причиной проблемы.