распределение функции collect_list по рабочим узлам

#apache-spark #pyspark #apache-spark-sql #collect

#apache-spark #pyspark #apache-spark-sql #собирать

Вопрос:

Я выполняю сбор агрегированного массива, используя следующий код в pyspark:

 df1=df.groupBy('key').agg(collect_list('value'))

Я знаю такие функции, как сбор данных в один узел. Возможно ли достичь того же результата, одновременно используя возможности распределенных облачных вычислений?

Ответ №1:

Похоже, здесь есть небольшое недоразумение

collect принудительно собирает данные через драйвер и не распространяется

принимая во внимание

collect_list и collect_set являются распределенными операциями по умолчанию.

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Angular 2 — сетка пользовательского интерфейса Kendo. Не работает подкачка страниц

LATEX — как отобразить много переходов на одной стрелке цикла?

Не удается разбить оконные вызовы на группы при использовании rank()