Кластер Google cloud dataproc, созданный с использованием среды.yaml с ресурсом jupyter, но среда недоступна в качестве ядра jupyter

# #apache-spark #pyspark #jupyter-notebook #google-cloud-dataproc #dataproc

#apache-искра #пыспарк #юпитер-записная книжка #google-облако-dataproc #dataproc

Вопрос:

Я создал новый кластер dataproc с определенным environment.yaml . Вот команда, которую я использовал для создания этого кластера:

 gcloud dataproc clusters create dataproc-testing1  --enable-component-gateway  --bucket my-test-bucket  --region us-central1 --zone us-central1-c  --master-machine-type n1-standard-2  --master-boot-disk-size 32  --num-workers 3  --worker-machine-type n1-standard-2  --worker-boot-disk-size 32  --num-secondary-workers 3  --preemptible-worker-boot-disk-type  --preemptible-worker-boot-disk-size 32  --num-preemptible-worker-local-ssds 0  --image-version 2.0-ubuntu18  --properties dataproc:conda.env.config.uri=gs://my-test-bucket/environment.yaml  --optional-components JUPYTER  --scopes 'https://www.googleapis.com/auth/cloud-platform'  --project my-project  

Это успешно создает кластер.

Я смог подключиться по ssh к узлам master и executor, и все они имеют среду pyspark , созданную с environment.yaml помощью того, что я указал в приведенной выше команде создания кластера. Все зависимости есть, и версия python также 3.9.7.

После SSH в рабочие или главные узлы и запуска python --version дает мне Python 3.9.7

бег conda env list дает мне

 # base /opt/conda/miniconda3 pyspark * /opt/conda/miniconda3/envs/pyspark  

Следовательно, активированная среда есть pyspark .

Я могу деактивировать эту среду с conda deactivate помощью, а затем base среда активируется, и в python --version результате Python 3.8.12

Пока все идет так, как я и ожидал.

Теперь я запустил записную книжку jupyter с вкладки веб-интерфейсы в консоли кластера, и проблема в том, что:

В нем есть только «PySpark» (обратите внимание, что это не то же самое, что pyspark), «Python3», «spylon-ядро`, доступные ядра «R». «R» означает «R», а «spylon-ядро» — «scala».

Я активирую ядро ‘PySpark’ и запускаю

 import sys sys.version  

и результат таков

'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) n[GCC 9.4.0]'

Я активирую ядро «Python 3» и запускаю

 import sys sys.version  

и результат таков '3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) n[GCC 9.4.0]'

В обоих этих ядрах ни один из пакетов от environment.yaml не доступен.

В заключение, я не могу получить доступ к pyspark среде, созданной environment.yaml .

Не могли бы вы, пожалуйста, помочь мне получить доступ к pyspark среде, созданной environment.yaml ?

Комментарии:

1. Можете ли вы включить содержание environment.yaml , чтобы оно могло быть воспроизведено сообществом?