запустите кластер pyspark с помощью ноутбука jupyter

#python #apache-spark #pyspark #jupyter-notebook

Вопрос:

я создаю приложение pyspark с помощью ноутбука jupyter , до сих пор я использую его в автономном режиме.

Теперь у меня в распоряжении 3 виртуальные машины с spark на них, и я хочу запустить Pyspark в кластере.

Вот мой код, чтобы запустить его в автономном режиме : введите описание изображения здесь

зная, что я использую spark 3.1.2 hadoop 3.2

я искал способы сделать это, но не получил, и в некоторых статьях говорится, что pyspark не работает в кластерах, поэтому, пожалуйста, если вы знаете, как я могу изменить этот код и запустить сеанс в кластере, пожалуйста, помогите.

Спасибо.

Комментарии:

1. Что произойдет, если вы используете local[2] вместо local[3] учета индексацию на основе нуля? Или поменять master appName местами разделы и?

2. @MarkMoretto при использовании local[2] spark использует только 2 ядра вместо 3, я думаю , что что касается реверса, я не думаю, что это актуально, если я ошибаюсь, пожалуйста, поправьте меня

3. Наверное, ты права, лол. Есть ли конкретный адрес для виртуальных машин? В противном случае, похоже, нет проблем с тем, как структурирован ваш код. spark.apache.org/docs/latest/api/python/reference/api/…

4. @MarkMoretto когда я введу адрес ведущего, как подчиненные узлы будут соединяться друг с другом ? и сформировать кластер?

Ответ №1:

У вас, скорее всего, есть какой-то кластер. Я использую kubernutes и https://github.com/bjornjorgensen/jlpyk8s

Таким образом, у меня есть записная книжка, на которой я запускаю pyspark.