Чтобы суммировать столбец словаря, обусловленный другим столбцом в Pyspark

ProgramBox

Чтобы суммировать столбец словаря, обусловленный другим столбцом в Pyspark

Post author:admin
Запись опубликована:18 января, 2022
Post category:Вопросы по программированию

#apache-spark #pyspark #apache-spark-sql

Вопрос:

  --------------------------- ------- 
|Maps                       |   B   |
 --------------------------- ------- 
|Map(a -> 1, b -> 2, c -> 3)|   1   |
|Map(a -> 1, b -> 3, c -> 3)|   1   |
|Map(a -> 2, b -> 4, d -> 6)|   2   |
 --------------------------- -------

Чтобы получить сумму карт, которые имеют одинаковое значение «B».
Ожидаемый:

  --------------------------- ------- 
|Maps                       |   B   |
 --------------------------- ------- 
|Map(a -> 2, b -> 5, c -> 6)|   1   |
|Map(a -> 2, b -> 4, d -> 6)|   2   |
 --------------------------- -------

Ответ №1:

Нашел обходной путь:

 from pyspark.sql import functions as F

df.select(F.explode("Maps"), F.col("B"))
        .groupBy("key", "B")
        .sum("value")

Метки: обусловленный другим столбцом в Pyspark, Чтобы суммировать столбец словаря

Вопрос:

Ответ №1:

Вам также может понравиться

Загрузка файла с помощью сервера узлов при нажатии на кнопку — react.js

как вызвать входящий канал в коде Java

Ошибка, связанная с «не удается удалить объекты _thread.rlock» при сохранении модели keras с использованием pickle