Сводная таблица по нескольким столбцам в Julia

ProgramBox

Сводная таблица по нескольким столбцам в Julia

Post author:admin
Запись опубликована:18 февраля, 2023
Post category:Вопросы по программированию

#dataframe #pivot #julia #pivot-table

#фрейм данных #сводная #julia #сводная таблица

Вопрос:

Я хотел бы создать сводную таблицу для фрейма данных в Julia. Из документации я знаю, что могу сделать это с by помощью и unstack . Например.

 julia> using DataFrames, Random

julia> Random.seed!(42);

julia> df = DataFrame(
           Step = rand(1:3, 15) |> sort,
           Label1 = rand('A':'B', 15) .|> Symbol,
           Label2 = rand('Q':'R', 15) .|> Symbol
       )
15×3 DataFrame
│ Row │ Step  │ Label1 │ Label2 │
│     │ Int64 │ Symbol │ Symbol │
├─────┼───────┼────────┼────────┤
│ 1   │ 1     │ A      │ Q      │
│ 2   │ 1     │ A      │ Q      │
│ 3   │ 1     │ B      │ R      │
│ 4   │ 1     │ B      │ R      │
│ 5   │ 1     │ B      │ Q      │
│ 6   │ 2     │ B      │ Q      │
│ 7   │ 2     │ B      │ Q      │
│ 8   │ 2     │ B      │ R      │
│ 9   │ 2     │ B      │ R      │
│ 10  │ 3     │ B      │ R      │
│ 11  │ 3     │ B      │ Q      │
│ 12  │ 3     │ B      │ R      │
│ 13  │ 3     │ A      │ R      │
│ 14  │ 3     │ B      │ R      │
│ 15  │ 3     │ B      │ Q      │

julia> unstack(by(df, [:Step, :Label1, :Label2], nrow), :Label1, :nrow)
6×4 DataFrame
│ Row │ Step  │ Label2 │ A       │ B      │
│     │ Int64 │ Symbol │ Int64?  │ Int64? │
├─────┼───────┼────────┼─────────┼────────┤
│ 1   │ 1     │ Q      │ 2       │ 1      │
│ 2   │ 1     │ R      │ missing │ 2      │
│ 3   │ 2     │ Q      │ missing │ 2      │
│ 4   │ 2     │ R      │ missing │ 2      │
│ 5   │ 3     │ Q      │ missing │ 2      │
│ 6   │ 3     │ R      │ 1       │ 3      │

Теперь, как мне выполнить сводку по двум столбцам, здесь Label1 и Label2, чтобы получить количество строк для каждой комбинации элементов этих двух столбцов? Ожидаемый результат будет примерно таким

 │ Row │ Step  │ AQ      │ AR      │ BQ      │ BR      │
│     │ Int64 │ Int64?  │ Int64?  │ Int64?  │ Int64?  │
├─────┼───────┼─────────┼─────────┼─────────┼─────────┤
│ 1   │ 1     │ 2       │ missing │ 1       │ 2       │
│ 3   │ 2     │ missing │ missing │ 2       │ 2       │
│ 5   │ 3     │ missing │ 1       │ 2       │ 3       │

Заранее спасибо!
Тим

Ответ №1:

Первый — by устарел (руководство будет обновлено через несколько дней, чтобы отразить это), поэтому следует написать:

 julia> unstack(combine(groupby(df, [:Step, :Label1, :Label2]), nrow), :Label1, :nrow)
6×4 DataFrame
│ Row │ Step  │ Label2 │ A       │ B      │
│     │ Int64 │ Symbol │ Int64?  │ Int64? │
├─────┼───────┼────────┼─────────┼────────┤
│ 1   │ 1     │ Q      │ 2       │ 1      │
│ 2   │ 1     │ R      │ missing │ 2      │
│ 3   │ 2     │ Q      │ missing │ 2      │
│ 4   │ 2     │ R      │ missing │ 2      │
│ 5   │ 3     │ Q      │ missing │ 2      │
│ 6   │ 3     │ R      │ 1       │ 3      │

Однако, если вам нужно количество строк, я бы предпочел сделать что-то вроде:

 julia> gdf = groupby(df, [:Step, :Label2], sort=true);

julia> lev = unique(df.Label1)
2-element Array{Symbol,1}:
 :A
 :B

julia> combine(gdf, :Label1 .=> [x -> count(==(l), x) for l in lev] .=> lev)
6×4 DataFrame
│ Row │ Step  │ Label2 │ A     │ B     │
│     │ Int64 │ Symbol │ Int64 │ Int64 │
├─────┼───────┼────────┼───────┼───────┤
│ 1   │ 1     │ Q      │ 2     │ 1     │
│ 2   │ 1     │ R      │ 0     │ 2     │
│ 3   │ 2     │ Q      │ 0     │ 2     │
│ 4   │ 2     │ R      │ 0     │ 2     │
│ 5   │ 3     │ Q      │ 0     │ 2     │
│ 6   │ 3     │ R      │ 1     │ 3     │

таким образом, у вас 0 нет missing места, где у вас отсутствует значение.

Этот шаблон обобщается на несколько групп:

 julia> gdf = groupby(df, :Step, sort=true);

julia> l1 = unique(df.Label1)
2-element Array{Symbol,1}:
 :A
 :B

julia> l2 = unique(df.Label2)
2-element Array{Symbol,1}:
 :Q
 :R

julia> combine(gdf, [[:Label1, :Label2] =>
                     ((x,y) -> count(((x,y),) -> x==v1 amp;amp; y==v2, zip(x,y))) =>
                     Symbol(v1, v2) for v1 in l1 for v2 in l2])
3×5 DataFrame
│ Row │ Step  │ AQ    │ AR    │ BQ    │ BR    │
│     │ Int64 │ Int64 │ Int64 │ Int64 │ Int64 │
├─────┼───────┼───────┼───────┼───────┼───────┤
│ 1   │ 1     │ 2     │ 0     │ 1     │ 2     │
│ 2   │ 2     │ 0     │ 0     │ 2     │ 2     │
│ 3   │ 3     │ 0     │ 1     │ 2     │ 3     │

другим способом сделать это с использованием вашего исходного кода было бы:

 julia> unstack(combine(groupby(select(df, :Step, [:Label1, :Label2] => ByRow(Symbol) => :Label), [:Step, :Label]), nrow), :Label, :nrow)
3×5 DataFrame
│ Row │ Step  │ AQ      │ AR      │ BQ     │ BR     │
│     │ Int64 │ Int64?  │ Int64?  │ Int64? │ Int64? │
├─────┼───────┼─────────┼─────────┼────────┼────────┤
│ 1   │ 1     │ 2       │ missing │ 1      │ 2      │
│ 2   │ 2     │ missing │ missing │ 2      │ 2      │
│ 3   │ 3     │ missing │ 1       │ 2      │ 3      │

Тем не менее, я согласен, что это не очень просто. Эта проблема отслеживается в https://github.com/JuliaData/DataFrames.jl/issues/2148 и в связи с этим https://github.com/JuliaData/DataFrames.jl/issues/2205 .

1. спасибо за подробный ответ. Это именно то, что я искал. В вашем ответе ваши нынешние два подхода и, похоже, предпочитают первый. Не могли бы вы быстро объяснить, почему?

2. вам нужно только знать, как combine это работает, чтобы написать. Для второго вам нужно знать две функции. Вот и все. Когда я думал, как ответить на ваш вопрос combine , моим первым решением было просто использовать (хотя формулы выглядят уродливо, я написал их сразу и без ошибок — поскольку, когда вы понимаете логику, как combine работает «миниязык», это очень мощно).

3. Также обратите внимание, что для цепочки Pipe.jl пакет очень полезен. Я не использовал его в своих ответах, чтобы избежать добавления к нему еще одного уровня сложности, но они выглядели бы намного чище при использовании @pipe макроса (например %>% , в R). Также, возможно, я предвзят, я знаю, что внутренне unstack по существу использует groupby , но таким образом, что делает его более эффективным, чем использование combine .

4. Спасибо за подробное объяснение. Похоже, я должен потратить еще немного времени combine . И да, в моем коде я также сразу использую Pipe.jl 🙂

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Проблема со свойством Double и BigDecimal, созданным в Hana из Hybris

Проблема с сохранением изолированного файла Silverlight в определенной папке.

Метод Arduino POST