Spark / k8s: Как мне установить Spark 2.4 на существующий кластер kubernetes в режиме клиента?

#apache-spark #kubernetes #pyspark #jupyter #jupyterhub

#apache-spark #kubernetes #pyspark #jupyter #jupyterhub

Вопрос:

Я хочу установить Apache Spark версии 4 на мой кластер Kubernetes, но, похоже, для этой версии нет стабильной рулевой диаграммы. Более старая / стабильная диаграмма (для версии v1.5.1) существует на

https://github.com/helm/charts/tree/master/stable/spark

Как я могу создать / найти диаграмму версии v2.4?

Затем: причина необходимости версии v2.4 заключается в включении клиентского режима, потому что я хотел бы иметь возможность отправлять задания (PySpark / Jupyter notebook) в кластер из среды разработки моего ноутбука. Какие дополнительные шаги требуются для включения клиентского режима (включая предоставление доступа к службе)?

Ближайшая попытка на данный момент (но для Spark версии v2.0.0), которую я нашел, но которая у меня еще не заработала, находится на

https://github.com/Uninett/kubernetes-apps/tree/master/spark

В https://github.com/phatak-dev/kubernetes-spark (также двухлетней давности), в нем ничего нет о развертывании jupyter.

Специфичный для Pangeo:https://discourse.jupyter.org/t/spark-integration-documentation/243

ИТАК, поток:https://github.com/jupyterhub/zero-to-jupyterhub-k8s/issues/1030

Я искал актуальные ресурсы для этого, но не нашел ничего, что содержало бы все в одном месте. Я дополню этот вопрос другими соответствующими ссылками, если и когда люди смогут указать мне на них. Надеюсь, удастся собрать ответ воедино.

Как всегда, заранее огромное спасибо.

Обновить:

https://github.com/SnappyDataInc/spark-on-k8s версия 2 чрезвычайно проста в развертывании — выглядит многообещающе…

Комментарии:

1. github.com/radanalyticsio/spark-operator

Ответ №1:

смотрите https://hub.helm.sh/charts/microsoft/spark это основано на https://github.com/helm/charts/tree/master/stable/spark и использует spark 2.4.6 с hadoop 3.1. Вы можете проверить источник этого чата на https://github.com/dbanda/charts . Служба Livy упрощает отправку заданий spark через REST API. Вы также можете отправлять задания с помощью Zeppelin. Мы составили эту диаграмму как альтернативный способ запуска spark на K8s без использования режима spark-submit k8s. Я надеюсь, это поможет.