#docker #tensorflow #amazon-sagemaker
#docker #тензорный поток #amazon-sagemaker
Вопрос:
Я пытаюсь запустить модель (скрипт python) в script mode
AWS sagemaker. Я пытаюсь использовать оценщик тензорного потока для вызова скрипта из ноутбука, как показано ниже
from sagemaker.tensorflow import TensorFlow
tf_estimator = TensorFlow(
entry_point='train.py',
role=role,
train_instance_count=1,
train_instance_type='local_gpu',
framework_version='1.12',
py_version='py3',
script_mode=True,
hyperparameters={'epochs': 10})
tf_estimator.fit({'training': training_path_input, 'validation': validation_path_input})
Я получаю ошибку, как показано ниже.
> Creating tmpvq65nmup_algo-1-wipol_1 ...
> ting tmpvq65nmup_algo-1-wipol_1 ... error
> ERROR: for tmpvq65nmup_algo-1-wipol_1 Cannot start service algo-1-wipol: OCI runtime create failed: container_linux.go:349:
> starting container process caused "process_linux.go:449: container
> init caused "process_linux.go:432: running prestart hook 1 caused
> \"error running hook: exit status 1, stdout: , stderr:
> nvidia-container-cli: initialization error: nvml error: driver not
> loaded\\n\""": unknown
Я хотел бы знать, как это можно исправить.
Ответ №1:
Привет, не могли бы вы предоставить дополнительную информацию о экземпляре ноутбука, который у вас есть, с каким ядром вы запускали пример ноутбука?
Похоже, проблема в том, что драйвер nvidia не был установлен.