Добавление задания spark-r в шаблон рабочего процесса dataproc

#google-cloud-platform #workflow #google-cloud-dataproc

#google-cloud-platform #рабочий процесс #google-cloud-dataproc

Вопрос:

Я пытался добавить spark-r шаг задания в свой шаблон рабочего процесса двумя различными способами.

Использование команды gcloud:

 gcloud beta dataproc workflow-templates add-job spark-r gs://path/to/script.R 
    --step-id=<stepid> --workflow-template=<templateid>
  

Или путем импорта определения YAML:

 jobs:
- sparkRJob:
    mainRFileUri: gs://path/to/script.R
  stepId: <stepid>
placement:
  managedCluster:
    clusterName: cluster-sparkr
    config:
      gceClusterConfig:
        zoneUri: europe-west4-b
      masterConfig:
        machineTypeUri: n1-standard-4
      workerConfig:
        machineTypeUri: n1-standard-4
        numInstances: 4
  

Однако оба способа приводят к следующей ошибке:

INVALID_ARGUMENT: Задание «» должно содержать определение задания

Что оставляет меня немного в замешательстве относительно того, чего именно мне не хватает.

Ответ №1:

Я протестировал ваше определение YAML, и оно сработало для меня с помощью command:

 gcloud beta dataproc workflow-templates instantiate-from-file --file <definition.yaml>
  

Кроме того, шаблон рабочего процесса с заданием Spark R успешно создан с помощью команд gcloud:

 gcloud beta dataproc workflow-templates create my-test-wf-01
gcloud beta dataproc workflow-templates add-job spark-r gs://path/to/script.R 
    --step-id=my-test-step-id --workflow-template=my-test-wf-01
  

Вывод второй команды выше:

 createTime: '2019-04-15T16:49:06.346Z'
id: my-test-wf-01
jobs:
- sparkRJob:
    mainRFileUri: gs://path/to/script.R
  stepId: my-test-step-id
  

Комментарии:

1. Я по-прежнему получаю то же сообщение об ошибке, если пытаюсь создать этот рабочий процесс.

2. Я добавил в свой ответ команды, которые сработали для меня. Можете ли вы поделиться полными командами, которые вы используете для создания шаблона рабочего процесса?

3. Какую gcloud версию вы используете? Попробуйте обновить до последней версии.

4. На моем локальном компьютере: Google Cloud SDK 241.0.0, beta 2019.02.22, bq 2.0.43, core 2019.04.02, gsutil 4.38 Я также пробовал использовать Active Cloud Shell на GCP, но тоже без dice.

5. В предыдущем комментарии больше нет доступных изменений 🙂 Я думаю, что Gcloud должен быть последним. Я обновил вчера. Я не уверен в форматировании вашей второй команды. Это допустимо? В любом случае, команды, которые вы написали, в основном те же, что я пробовал.