получение Init: ErrImagePull при установке плагина nvidia в GKE

#google-cloud-platform #google-kubernetes-engine #nvidia

#google-облачная платформа #google-kubernetes-engine #nvidia

Вопрос:

Я не могу установить плагин Nvidia GPU в GKE. Я перешел по этой ссылке https://cloud.google.com/kubernetes-engine/docs/how-to/gpus#installing_drivers для установки. При описании модуля, который я получаю

 Failed to pull image "cos-nvidia-installer:fixed": rpc error: code = Unknown desc = failed to pull and unpack image "docker.io/library/cos-nvidia-installer:fixed": failed to resolve reference "docker.io/library/cos-nvidia-installer:fixed": pull access denied, repository does not exist or may require authorization: server message: insufficient_scope: authorization failed
 

Кто-нибудь может помочь?

Спасибо

Ответ №1:

Условие ErrImagePull означает, что узел не может извлечь образ контейнера из реестра образов контейнеров. Некоторые потенциальные причины этой проблемы:

  • Контейнер недоступен или недоступен с узла
  • Образ контейнера не существует в реестре
  • Образ контейнера, указанный в манифесте развертывания, неверен

Проблема с созданием централизованного cos-gpu-installer: исправлено, заключается в том, что мы не сможем привязать версию драйвера к версии ОС. Они проходят соответствующую квалификацию и тестирование перед предварительной загрузкой. Таким образом, для конкретной версии GKE вы всегда получаете одну и ту же версию драйвера. Это затрудняет создание одного тега, который узел мог бы извлечь из реестра.

В предварительно загруженный установочный образ «cos-nvidia-installer: исправлено» были внесены некоторые изменения, чтобы использовать версию драйвера по умолчанию только для определенной версии cos.

Одним из обходных путей является установка версии драйвера с другим образом контейнера в файле конфигурации, т.е. Указание полной версии образа в наборе демонов (e.g. gcr.io/cos-cloud/cos-gpu-installer@sha256:8d86a652759f80595cafed7d3dcde3dc53f57f9bc1e33b27bc3cfa7afea8d483) , вы также можете установить образ контейнера последней версии и попробовать. Поскольку эта версия ссылается на то же изображение, которое предварительно загружено, извлечение изображения должно быть очень быстрым.

Попробуйте изменить эти поля в файле конфигурации:

   initContainers:
     - image: gcr.io/cos-cloud/cos-gpu-installer@sha256:8d86a652759f80595cafed7d3dcde3dc53f57f9bc1e33b27bc3cfa7afea8d483
       name: nvidia-driver-installer
 

И

     env:
      - name: NVIDIA_INSTALL_DIR_HOST
        value: /home/kubernetes/bin/nvidia
      - name: NVIDIA_INSTALL_DIR_CONTAINER
        value: /usr/local/nvidia
      - name: VULKAN_ICD_DIR_HOST
        value: /home/kubernetes/bin/nvidia/vulkan/icd.d
      - name: VULKAN_ICD_DIR_CONTAINER
        value: /etc/vulkan/icd.d
      - name: ROOT_MOUNT_DIR
        value: /root
      - name: NVIDIA_DRIVER_VERSION
        value: "450.51.06"
    volumeMounts: