#apache-spark #pyspark #emr
#apache-spark #pyspark #emr
Вопрос:
У меня есть несколько заданий spark в кластере EMR с использованием yarn, которые должны выполняться на регулярной основе и отправляются из Jenkins. В настоящее время машина Jenkins подключается по ssh к главному узлу на EMR, где копия кода готова в папке для выполнения. Я хотел бы иметь возможность клонировать свой репозиторий в рабочую область jenkins и отправлять код из Jenkins для выполнения в кластере. Есть ли простой способ сделать это? Каков наилучший способ развертывания spark из Jenkins?
Ответ №1:
Вы можете использовать этот rest api для вызова http-запросов от Jenkins для запуска / остановки заданий
Ответ №2:
Если у вас есть Python в Jenkins, реализовать скрипт с помощью Boto3 — хороший, простой, гибкий и мощный вариант.
Вы можете управлять EMR (So Spark), создавая полный кластер или добавляя задания к существующему. Кроме того, используя ту же библиотеку, вы можете управлять всеми сервисами AWS.