Распределенное выполнение в режиме ожидания с использованием tensorflow

#tensorflow #eager-execution #distributed-tensorflow

#tensorflow #нетерпеливое выполнение #распределенный-tensorflow

Вопрос:

Согласно недавно опубликованному техническому документу и RFC на GitHub, tensorflow eager в настоящее время поддерживает распределенное выполнение. Упоминается, что, подобно режиму graph, мы можем быстро выполнить операцию на удаленном устройстве, установив имя устройства как, например, «/job: обучение /задача: 2/устройство: графическийпроцессор: 0». Однако я не могу найти никаких примеров кода или руководств о том, как это сделать.

Я отмечаю, что существует множество руководств по tf.distribute, высокоуровневому API для распределенного обучения, который поддерживает как график, так и режим ожидания. Однако меня больше интересует, как tf.distribute работает под капотом для режима ожидания. В частности, я хотел бы знать:

  1. Как подключить клиента к удаленному серверу в режиме ожидания?

  2. Когда и как определяется определение кластера в режиме ожидания?

Я был бы признателен, если бы кто-нибудь мог предоставить ответы на эти вопросы. Спасибо!