#tensorflow #eager-execution #distributed-tensorflow
#tensorflow #нетерпеливое выполнение #распределенный-tensorflow
Вопрос:
Согласно недавно опубликованному техническому документу и RFC на GitHub, tensorflow eager в настоящее время поддерживает распределенное выполнение. Упоминается, что, подобно режиму graph, мы можем быстро выполнить операцию на удаленном устройстве, установив имя устройства как, например, «/job: обучение /задача: 2/устройство: графическийпроцессор: 0». Однако я не могу найти никаких примеров кода или руководств о том, как это сделать.
Я отмечаю, что существует множество руководств по tf.distribute, высокоуровневому API для распределенного обучения, который поддерживает как график, так и режим ожидания. Однако меня больше интересует, как tf.distribute работает под капотом для режима ожидания. В частности, я хотел бы знать:
-
Как подключить клиента к удаленному серверу в режиме ожидания?
-
Когда и как определяется определение кластера в режиме ожидания?
Я был бы признателен, если бы кто-нибудь мог предоставить ответы на эти вопросы. Спасибо!