Ошибка создания среды выполнения OCI: container_linux.go: 349: запуск процесса контейнера, вызванного в sagemaker

#docker #tensorflow #amazon-sagemaker

#docker #тензорный поток #amazon-sagemaker

Вопрос:

Я пытаюсь запустить модель (скрипт python) в script mode AWS sagemaker. Я пытаюсь использовать оценщик тензорного потока для вызова скрипта из ноутбука, как показано ниже

 from sagemaker.tensorflow import TensorFlow

tf_estimator = TensorFlow(
                         entry_point='train.py', 
                         role=role,
                         train_instance_count=1,
                         train_instance_type='local_gpu',
                         framework_version='1.12',
                         py_version='py3',
                         script_mode=True,
                         hyperparameters={'epochs': 10})

tf_estimator.fit({'training': training_path_input, 'validation': validation_path_input})
  

Я получаю ошибку, как показано ниже.

 >     Creating tmpvq65nmup_algo-1-wipol_1 ... 
>     ting tmpvq65nmup_algo-1-wipol_1 ... error
>     ERROR: for tmpvq65nmup_algo-1-wipol_1  Cannot start service algo-1-wipol: OCI runtime create failed: container_linux.go:349:
> starting container process caused "process_linux.go:449: container
> init caused "process_linux.go:432: running prestart hook 1 caused
> \"error running hook: exit status 1, stdout: , stderr:
> nvidia-container-cli: initialization error: nvml error: driver not
> loaded\\n\""": unknown
  

Я хотел бы знать, как это можно исправить.

Ответ №1:

Привет, не могли бы вы предоставить дополнительную информацию о экземпляре ноутбука, который у вас есть, с каким ядром вы запускали пример ноутбука?

Похоже, проблема в том, что драйвер nvidia не был установлен.