Slurmd не удается запустить со следующей ошибкой: фатальный: не удается определить имя узла этого slurmd

#slurm

#slurm

Вопрос:

Я пытаюсь настроить slurm на нескольких экземплярах aws, но всякий раз, когда я пытаюсь запустить головной узел, он выдает мне следующую ошибку:

фатальный: не удается определить имя узла этого slurmd

Я настроил экземпляры / etc / hosts, чтобы они могли обращаться друг к другу как node1-6, причем node6 является головным узлом. Это файл hosts для node6, все остальные узлы имеют аналогичный файл hosts.

файл /etc/hosts:

 127.0.0.1 localhost node6

# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
ff02::3 ip6-allhosts

<Node1 IP> node1
<Node2 IP> node2
<Node3 IP> node3
<Node4 IP> node4
<Node5 IP> node5
  

/etc/slurm-llnl/slurm.conf:

 ###############################################################################
#                 Sample configuration file for SLURM 2
###############################################################################
#
# This file holds the system-wide SLURM configuration. It is read
# by SLURM clients, daemons, and the SLURM API to determine where
# and how to contact the SLURM controller, what other nodes reside
# in the current cluster, and various other configuration information.
#
# SLURM configuration parameters take the form Keyword=Value, where
# at this time, no spacing is allowed to surround the equals (=) sign.
# Many of the config values are not mandatory, and so may be left
# out of the config file. We will attempt to list the default
# values for those parameters in this file.
#
# This simple configuration provides a control machine named "laptop"
# to run the Slurm's central management daemon and a single node
# named "server" which execute jobs. Both machine should have Slurm
# installed and use this configuration file. If you have a similar
# configuration just change the values of ControlMachine, for the
# control machine and PartitionName and NodeName for job execution
#
###############################################################################
#

ControlMachine=node6
#ControlAddr=
#BackupController=
#BackupAddr=
#
AuthType=auth/munge
CacheGroups=0
#CheckpointType=checkpoint/none
CryptoType=crypto/munge
#DisableRootJobs=NO
#EnforcePartLimits=NO
#Epilog=
#PrologSlurmctld=
#FirstJobId=1
JobCheckpointDir=/var/lib/slurm-llnl/checkpoint
#JobCredentialPrivateKey=
#JobCredentialPublicCertificate=
#JobFileAppend=0
#JobRequeue=1
#KillOnBadExit=0
#Licenses=foo*4,bar
#MailProg=/usr/bin/mail
#MaxJobCount=5000
MpiDefault=none
#MpiParams=ports:#-#
#PluginDir=
#PlugStackConfig=
#PrivateData=jobs
ProctrackType=proctrack/pgid
#Prolog=
#PrologSlurmctld=
#PropagatePrioProcess=0
#PropagateResourceLimits=
#PropagateResourceLimitsExcept=
ReturnToService=1
#SallocDefaultCommand=
SelectType=select/cons_res
SelectTypeParameters=CR_Core
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/lib/slurm-llnl/slurmd
SlurmUser=slurm
#SrunEpilog=
#SrunProlog=
StateSaveLocation=/var/lib/slurm-llnl/slurmctld
SwitchType=switch/none
#TaskEpilog=
TaskPlugin=task/none
#TaskPluginParam=
#TaskProlog=
#TopologyPlugin=topology/tree
#TmpFs=/tmp
#TrackWCKey=no
#TreeWidth=
#UnkillableStepProgram=
#UnkillableStepTimeout=
#UsePAM=0
#
#
# TIMERS
#BatchStartTimeout=10
#CompleteWait=0
#EpilogMsgTime=2000
#GetEnvTimeout=2
#HealthCheckInterval=0
#HealthCheckProgram=
InactiveLimit=0
KillWait=30
#MessageTimeout=10
#ResvOverRun=0
MinJobAge=300
#OverTimeLimit=0
SlurmctldTimeout=300
SlurmdTimeout=300
#UnkillableStepProgram=
#UnkillableStepTimeout=60
Waittime=0
#
#
# SCHEDULING
#DefMemPerCPU=0
FastSchedule=1
#MaxMemPerCPU=0
#SchedulerRootFilter=1
#SchedulerTimeSlice=30
SchedulerType=sched/backfill
SchedulerPort=7321
#SelectType=select/linear
#SelectTypeParameters=
#
#
# JOB PRIORITY
#PriorityType=priority/basic
#PriorityDecayHalfLife=
#PriorityFavorSmall=
#PriorityMaxAge=
#PriorityUsageResetPeriod=
#PriorityWeightAge=
#PriorityWeightFairshare=
#PriorityWeightJobSize=
#PriorityWeightPartition=
#PriorityWeightQOS=
#
#
# LOGGING AND ACCOUNTING
#AccountingStorageEnforce=0
#AccountingStorageHost=
#AccountingStorageLoc=
#AccountingStoragePass=
#AccountingStoragePort=
AccountingStorageType=accounting_storage/none
#AccountingStorageUser=
ClusterName=cluster
#DebugFlags=
#JobCompHost=
#JobCompLoc=
#JobCompPass=
#JobCompPort=
JobCompType=jobcomp/none
#JobCompUser=
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=3
SlurmctldLogFile=/var/log/slurm-llnl/slurmctld.log
SlurmdDebug=3
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
#
#
# POWER SAVE SUPPORT FOR IDLE NODES (optional)
#SuspendProgram=
#ResumeProgram=
#SuspendTimeout=
#ResumeTimeout=
#ResumeRate=
#SuspendExcNodes=
#SuspendExcParts=
#SuspendRate=
#SuspendTime=
#
#
# COMPUTE NODES


NodeName=node1 Procs=1 State=UNKNOWN
NodeName=node2 Procs=1 State=UNKNOWN
NodeName=node3 Procs=1 State=UNKNOWN
NodeName=node4 Procs=1 State=UNKNOWN
NodeName=node5 Procs=1 State=UNKNOWN
NodeName=node6 Procs=1 State=UNKNOWN



#PartitionName=debug Nodes=server Default=YES MaxTime=INFINITE State=UP
PartitionName=mycluster Nodes=node[1-6] Default=YES MaxTime=INFINITE State=UP
  

Комментарии:

1. Попробуйте добавить <IP-адрес узла 6> node6 в файл хоста. Все файлы хостов должны иметь IP и имена хостов всех узлов, включая его самого. Кроме того, в узле входа в систему попробуйте проверить, возможен ли ssh между всеми узлами, использующими nodename.

2. Я попытался добавить <node6 ip> node6 в /etc /hosts, и это не сработало. все файлы хостов имеют IP и имена хостов всех узлов, включая его самого. Из головного узла (node6) Я могу подключиться по ssh ко всем другим узлам.

3. Какой вывод hostname -s на любом из узлов?

4. @damienfrancois итак, это было имя хоста, я отредактировал неправильные файлы. Мне нужно было изменить etc/hostname

Ответ №1:

Проблема в вашем

ControlMachine= node6

замените node6 результатом «hostname -s». Также укажите ip, как в «ifconfig»

 ControlAddr=<your local ip>