#cluster-analysis #dask #dask-distributed #dask-kubernetes
#кластерный анализ #dask #dask-распределенный #dask-kubernetes
Вопрос:
Я пытаюсь запустить dask
кластер, но он выдает следующую ошибку:
Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s:
Timed out trying to connect to 'tcp://100.100.160.25:2323' after 10 s:
connect() didn't finish in time
Комментарии:
1. Похоже на сетевую ошибку. Это сложно отладить, но я бы проверил, находятся ли планировщики / рабочие в одной сети, открыты ли порты и т. Д.
Ответ №1:
Я испытал нечто подобное при создании временного кластера ECS / Fargate с помощью dask-cloudprovider. Ответ в конечном итоге попал в корзину сетевой архитектуры. Вот несколько рекомендаций:
- Убедитесь, что у вас есть правила сетевого брандмауэра для любых ролей IAM, которые вы настроили. Это «Группа безопасности» в AWS, но не относится положительно к другим платформам.
- Убедитесь, что таблицы маршрутизации вашей сети правильно настроены для ваших интернет-шлюзов и разрешают вход и выход для ваших узлов… это особенно небезопасно, если не настроено должным образом в частной подсети. Если вы пытаетесь работать в частной подсети, обязательно попробуйте определить, правильно ли настроен шлюз NAT, а также любые балансировщики нагрузки, которые у вас могут быть..
- Я вижу, что ваша система просматривает порты 2323 … насколько я знаю, dask обычно ищет 8787 по умолчанию, я бы изучил это, если вы не уверены.
Эту проблему довольно сложно устранить, поэтому я бы рекомендовал достаточное количество ошибок и ошибок. Проверьте журналы для каждого рабочего и планировщика и попытайтесь получить другие подсказки о том, что может быть причиной проблемы.