Повторное Использование Сеанса Spark Между Модулями/Пакетами

#python #apache-spark #pyspark

Вопрос:

Мы создаем многоразовую структуру данных с использованием PySpark. В рамках этого мы создали один большой пакет утилит, в котором были размещены все методы. Но теперь мы планируем разделить его на более мелкие и более управляемые пакеты.

Как мы разделяем сеанс Spark и объект регистратора во всех пакетах/модулях?

Комментарии:

1. PySpark будет работать на каком кластере?

2. Он будет работать на кластере EMR. Если вы это имеете в виду?