# #apache-spark #pyspark #jupyter-notebook #google-cloud-dataproc #dataproc
#apache-искра #пыспарк #юпитер-записная книжка #google-облако-dataproc #dataproc
Вопрос:
Я создал новый кластер dataproc с определенным environment.yaml
. Вот команда, которую я использовал для создания этого кластера:
gcloud dataproc clusters create dataproc-testing1 --enable-component-gateway --bucket my-test-bucket --region us-central1 --zone us-central1-c --master-machine-type n1-standard-2 --master-boot-disk-size 32 --num-workers 3 --worker-machine-type n1-standard-2 --worker-boot-disk-size 32 --num-secondary-workers 3 --preemptible-worker-boot-disk-type --preemptible-worker-boot-disk-size 32 --num-preemptible-worker-local-ssds 0 --image-version 2.0-ubuntu18 --properties dataproc:conda.env.config.uri=gs://my-test-bucket/environment.yaml --optional-components JUPYTER --scopes 'https://www.googleapis.com/auth/cloud-platform' --project my-project
Это успешно создает кластер.
Я смог подключиться по ssh к узлам master и executor, и все они имеют среду pyspark
, созданную с environment.yaml
помощью того, что я указал в приведенной выше команде создания кластера. Все зависимости есть, и версия python также 3.9.7.
После SSH в рабочие или главные узлы и запуска python --version
дает мне Python 3.9.7
бег conda env list
дает мне
# base /opt/conda/miniconda3 pyspark * /opt/conda/miniconda3/envs/pyspark
Следовательно, активированная среда есть pyspark
.
Я могу деактивировать эту среду с conda deactivate
помощью, а затем base
среда активируется, и в python --version
результате Python 3.8.12
Пока все идет так, как я и ожидал.
Теперь я запустил записную книжку jupyter с вкладки веб-интерфейсы в консоли кластера, и проблема в том, что:
В нем есть только «PySpark» (обратите внимание, что это не то же самое, что pyspark), «Python3», «spylon-ядро`, доступные ядра «R». «R» означает «R», а «spylon-ядро» — «scala».
Я активирую ядро ‘PySpark’ и запускаю
import sys sys.version
и результат таков
'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) n[GCC 9.4.0]'
Я активирую ядро «Python 3» и запускаю
import sys sys.version
и результат таков '3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) n[GCC 9.4.0]'
В обоих этих ядрах ни один из пакетов от environment.yaml
не доступен.
В заключение, я не могу получить доступ к pyspark
среде, созданной environment.yaml
.
Не могли бы вы, пожалуйста, помочь мне получить доступ к pyspark
среде, созданной environment.yaml
?
Комментарии:
1. Можете ли вы включить содержание
environment.yaml
, чтобы оно могло быть воспроизведено сообществом?