#python #apache-spark #pyspark #jupyter-notebook
Вопрос:
я создаю приложение pyspark с помощью ноутбука jupyter , до сих пор я использую его в автономном режиме.
Теперь у меня в распоряжении 3 виртуальные машины с spark на них, и я хочу запустить Pyspark в кластере.
Вот мой код, чтобы запустить его в автономном режиме :
зная, что я использую spark 3.1.2 hadoop 3.2
я искал способы сделать это, но не получил, и в некоторых статьях говорится, что pyspark не работает в кластерах, поэтому, пожалуйста, если вы знаете, как я могу изменить этот код и запустить сеанс в кластере, пожалуйста, помогите.
Спасибо.
Комментарии:
1. Что произойдет, если вы используете
local[2]
вместоlocal[3]
учета индексацию на основе нуля? Или поменятьmaster
appName
местами разделы и?2. @MarkMoretto при использовании local[2] spark использует только 2 ядра вместо 3, я думаю , что что касается реверса, я не думаю, что это актуально, если я ошибаюсь, пожалуйста, поправьте меня
3. Наверное, ты права, лол. Есть ли конкретный адрес для виртуальных машин? В противном случае, похоже, нет проблем с тем, как структурирован ваш код. spark.apache.org/docs/latest/api/python/reference/api/…
4. @MarkMoretto когда я введу адрес ведущего, как подчиненные узлы будут соединяться друг с другом ? и сформировать кластер?
Ответ №1:
У вас, скорее всего, есть какой-то кластер. Я использую kubernutes и https://github.com/bjornjorgensen/jlpyk8s
Таким образом, у меня есть записная книжка, на которой я запускаю pyspark.