#python #apache-spark #pyspark
Вопрос:
Мы создаем многоразовую структуру данных с использованием PySpark. В рамках этого мы создали один большой пакет утилит, в котором были размещены все методы. Но теперь мы планируем разделить его на более мелкие и более управляемые пакеты.
Как мы разделяем сеанс Spark и объект регистратора во всех пакетах/модулях?
Комментарии:
1. PySpark будет работать на каком кластере?
2. Он будет работать на кластере EMR. Если вы это имеете в виду?