#python #tensorflow #keras #tensorflow1.15
Вопрос:
Я пытаюсь запустить свой проект на основе tensorflow в кластере, я установил все соответствующие зависимости в своей среде anaconda точно так же, как и на своем локальном компьютере, на котором выполняется проект, но я получаю это сообщение об ошибке:
tensorflow.python.framework.errors_impl.InternalError: 2 root error(s) found.
(0) Internal: libdevice not found at ./libdevice.10.bc
[[{{node cluster_2_1/xla_compile}}]]
[[cluster_1_1/merge_oidx_20/_1]]
(1) Internal: libdevice not found at ./libdevice.10.bc
[[{{node cluster_2_1/xla_compile}}]]
Полная обратная связь — https://pastebin.com/njqNFWvC
внутри /u/usr/anaconda3/envs/Project_BM/lib/
я вижу libdevice.10.bc
то, о чем идет речь.
2021-06-30 08:27:50.484735: W tensorflow/compiler/xla/service/gpu/nvptx_compiler.cc:69] Can't find libdevice directory ${CUDA_DIR}/nvvm/libdevice. This may result in compilation or runtime failures, if the program we try to run uses routines from libdevice.
2021-06-30 08:27:50.484775: W tensorflow/compiler/xla/service/gpu/nvptx_compiler.cc:70] Searched for CUDA in the following directories:
2021-06-30 08:27:50.484781: W tensorflow/compiler/xla/service/gpu/nvptx_compiler.cc:73] ./cuda_sdk_lib
2021-06-30 08:27:50.484784: W tensorflow/compiler/xla/service/gpu/nvptx_compiler.cc:73] /usr/local/cuda
2021-06-30 08:27:50.484787: W tensorflow/compiler/xla/service/gpu/nvptx_compiler.cc:73] .
2021-06-30 08:27:50.484791: W tensorflow/compiler/xla/service/gpu/nvptx_compiler.cc:75] You can choose the search directory by setting xla_gpu_cuda_data_dir in HloModule's DebugOptions. For most apps, setting the environment variable XLA_FLAGS=--xla_gpu_cuda_data_dir=/path/to/cuda will work.
Этот раздел обратной связи заставляет меня думать, что tensorflow ищет cuda локально , а не в среде conda, чтобы исправить это, нужно ли мне установить значение XLA_FLAGS /u/usr/anaconda3/envs/Project_BM/lib/libdevice.10.bc
, если нет, где я могу найти /cuda/
каталог в Project_BM
среде?
Также стоит знать, что я запускаю это в кластере, поэтому у меня нет прав root.