распределение функции collect_list по рабочим узлам

#apache-spark #pyspark #apache-spark-sql #collect

#apache-spark #pyspark #apache-spark-sql #собирать

Вопрос:

Я выполняю сбор агрегированного массива, используя следующий код в pyspark:

 df1=df.groupBy('key').agg(collect_list('value'))
  

Я знаю такие функции, как сбор данных в один узел. Возможно ли достичь того же результата, одновременно используя возможности распределенных облачных вычислений?

Ответ №1:

Похоже, здесь есть небольшое недоразумение

collect принудительно собирает данные через драйвер и не распространяется

принимая во внимание

collect_list и collect_set являются распределенными операциями по умолчанию.

Комментарии:

1. Но когда я ее выполняю, я вижу, что нагрузка увеличивается только на одном узле в Gangila