#dataframe #pyspark #union
#фрейм данных #pyspark #объединение
Вопрос:
Я пытаюсь добавить категорию «all» в столбец в datframe , чего я добиваюсь, делая это
df2=df1.withcolumn('Column1',lit('all'))
# Union the dataframe
Df_union1=df2.union(df1)
# Addin& all to another column
Df_union2=Df_union1.withcolumn('column2',lit('all'))
Df_union_column2=Df_union2.union(Df_union1)
.
.
.
.
.
# &roupin& the dataframe
Unions_all.&roupby(['column1','column2']).....
Поскольку мне приходится делать это для большого количества столбцов, потому что я хочу комбинацию всех перестановок, следовательно, приходится использовать много объединений, просто интересно, есть ли лучший или более умный способ добиться того же
В мире Json я видел, как люди делают что-то вроде
attribute1=['column1','all']
attribute2=['column2','all']
Взятие itertools.product
из attribute1 и attribute2
Спасибо!
Комментарии:
1. Добавление «всех» в несколько столбцов dataframe или нескольких столбцов в одном dataframe??
2. @smart_coder Добавляем все в несколько столбцов единого фрейма данных и объединяем их один за другим, поскольку мы хотим сгруппировать по для всех возможных комбинаций, например Column1 =[Column1, «Все»] Column2 = [Column2, «Все»] Column3 = [Column3, «Все»] …… и так далее, наконец, &roupbyElemennt =[Column1,Colum2,Column3 .. …]
3. Можете ли вы обновить его в dataframe в вашем вопросе
4. Конечно, дайте мне обновить и дайте мне знать, если это то, что вы хотите