Как исправить: horovod.run.common.util.network.NoValidAddressesFound

#python #deep-learning #nvidia #horovod

#python #глубокое обучение #nvidia #horovod

Вопрос:

Я пытаюсь организовать распределенное обучение с помощью 2 nvidia docker. Когда я попробовал с 2 хостами, это не сработало. Как мне исправить эту проблему?

Я попробовал эту команду:

 horovodrun -np 3 -H localhost:1 -p 12345  python keras_mnist_advanced.py
  

Это сработало, но когда я попытался:

 horovodrun -np 3 -H localhost:1,192.168.0.20:2 -p 12345  python keras_mnist_advanced.py
  

Я получил эту ошибку:

Запуск целевой функции horovodrun не был успешным: horovod.run.common.util.network.Обнаружен NoValidAddressesFound: не удается подключиться к службе задач horovodrun # 1 по любому из адресов:{‘lo’: [(‘127.0.0.1’, 30871)], ‘ docker0’: [(‘172.17.0.1’, 30871)], ‘ enp0s31f6’: [(‘192.168.0.20’, 30871)]}

Ответ №1:

Пожалуйста, изучите эти проблемы, возникшие в репозитории:

1) https://github.com/horovod/horovod/issues/975

2) https://github.com/horovod/horovod/issues/971