Кто настраивает Jupyter Notebook в кластере Google Cloud Dataproc в период бесплатного отслеживания?

#google-cloud-platform #jupyter-notebook

#google-облачная платформа #jupyter-notebook

Вопрос:

Следуя этому руководству по настройке jupyter notebook в кластере Google Cloud Dataproc, я получаю следующую ошибку:

 gcloud dataproc clusters create my-name 
    --project my-project-id 
    --bucket my-bucket-name
    --initialization-actions 
    gs://dataproc-initialization-actions/jupyter/jupyter.sh

(gcloud.dataproc.clusters.create) INVALID_ARGUMENT: Multiple validation errors:
 - Insufficient 'CPUS' quota. Requested 12.0, available 8.0.
 - This request exceeds CPU quota. Some things to try: request fewer workers (a minimum of 2 is required), use smaller master and/or worker machine types (such as n1-standard-2).
  

Я нахожусь в периоде бесплатного обучения и ограничен 8 процессорами. Как я могу изменить тип компьютера? Какую настройку вы бы порекомендовали?

Комментарии:

1. Я пробовал --master-machine-type n1-highmem-8 , та же ошибка.

2. Привет! Помните, что рабочие тоже создаются при выполнении этой команды. Попробуйте использовать --worker-machine-type n1-highmem-4 и использовать n1-highmem-4 для своей основной машины.

Ответ №1:

По умолчанию будет минимум 2 рабочих (из-за требований к репликации HDFS) плюс главный узел, а тип компьютера по умолчанию — n1-standard-4. Поскольку у вас есть только 8 доступных ядер, вам нужно:

 gcloud dataproc clusters create my-name 
    --project my-project-id 
    --bucket my-bucket-name 
    --master-machine-type n1-standard-2 
    --worker-machine-type n1-standard-2 
    --initialization-actions 
        gs://dataproc-initialization-actions/jupyter/jupyter.sh
  

Ответ №2:

Если вы следите за публикацией «БЛОГ GOOGLE CLOUD О БОЛЬШИХ ДАННЫХ И МАШИННОМ ОБУЧЕНИИ» (https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud) , вы должны немного изменить решение @Dennis Huo,

 gcloud dataproc clusters create datascience 
    --master-machine-type n1-standard-2 
    --worker-machine-type n1-standard-2 
    --initialization-actions 
        gs://dataproc-initialization-actions/jupyter/jupyter.sh
  

потому что вы получите ошибку при настройке проекта и корзины.

Примечание:
ОШИБКА: (gcloud.dataproc.clusters.create) PERMISSION_DENIED: не разрешено получать настройки проекта для project my-project-id

ОШИБКА: (gcloud.dataproc.clusters.create) INVALID_ARGUMENT: отказано в доступе к корзине облачного хранилища Google: ‘my-bucket-name’)

Ответ №3:

Вы могли бы передать информацию о проекте. Следуйте примеру:

 gcloud dataproc clusters create $CLUSTERNAME 
    --project $PROJECT 
    --num-workers $WORKERS 
    --bucket $BUCKET 
    --master-machine-type $VMMASTER 
    --worker-machine-type $VMWORKER 
    --initialization-actions 
        gs://dataproc-initialization-actions/jupyter/jupyter.sh 
    --scopes cloud-platform