#apache-spark #pyspark #apache-spark-sql #collect
#apache-spark #pyspark #apache-spark-sql #собирать
Вопрос:
Я выполняю сбор агрегированного массива, используя следующий код в pyspark:
df1=df.groupBy('key').agg(collect_list('value'))
Я знаю такие функции, как сбор данных в один узел. Возможно ли достичь того же результата, одновременно используя возможности распределенных облачных вычислений?
Ответ №1:
Похоже, здесь есть небольшое недоразумение
collect
принудительно собирает данные через драйвер и не распространяется
принимая во внимание
collect_list
и collect_set
являются распределенными операциями по умолчанию.
Комментарии:
1. Но когда я ее выполняю, я вижу, что нагрузка увеличивается только на одном узле в Gangila