Вычисление совокупного продукта по фрейму данных с уникальными идентификаторами

#python #dataframe #uniqueidentifier

#python #фрейм данных #уникальный идентификатор

Вопрос:

Я хочу вычислить совокупный продукт для каждой даты и для каждого уникального идентификатора по временному ряду данных. Я понимаю, groupby и cumprod их нужно будет использовать вместе. Однако я не уверен в точном синтаксисе.

Вот некоторые примерные данные и требуемый результат

 data = {'date': ['2014-05-01','2014-05-01','2014-05-01','2014-05-01',
     '2014-05-02','2014-05-02','2014-05-02','2014-05-02','2014-05-03',
     '2014-05-03','2014-05-03', '2014-05-03'],'id':[1, 2, 3, 4, 1,
     2, 3, 4, 1, 2, 3, 4],'obs': [1, 2, 3, 4, 4, 3, 2, 1, 1, 2, 3, 4]}

df = pd.DataFrame(data, columns = ['date', 'id','obs'])
df.index =df.date
del df['date']

df

            id   obs  
date               
2014-05-01   1    1    
2014-05-01   2    2    
2014-05-01   3    3    
2014-05-01   4    4    
2014-05-02   1    4    
2014-05-02   2    3    
2014-05-02   3    2    
2014-05-02   4    1    
2014-05-03   1    1    
2014-05-03   2    2    
2014-05-03   3    3    
2014-05-03   4    4

Создан новый столбец с именем cumproduct на основе значений в столбце obs

             id   obs  cumproduct
date               
2014-05-01   1    1    1
2014-05-01   2    2    2
2014-05-01   3    3    3
2014-05-01   4    4    4
2014-05-02   1    4    5
2014-05-02   2    3    5
2014-05-02   3    2    5
2014-05-02   4    1    5
2014-05-03   1    1    6
2014-05-03   2    2    7
2014-05-03   3    3    8
2014-05-03   4    4    9

Любая помощь была бы потрясающей 🙂

Ответ №1:

 import pandas as pd

data = {'date': ['2014-05-01', '2014-05-01', '2014-05-01', '2014-05-01',
                 '2014-05-02', '2014-05-02', '2014-05-02', '2014-05-03',
                 '2014-05-03', '2014-05-03'],
        'id': [1, 2, 3, 4, 1, 2, 3, 4, 1, 2],
        'obs': [1, 2, 3, 4, 5, 5, 5, 5, 6, 7]}

df = pd.DataFrame(data).set_index(['date', 'id']).sort_index(level='date')
df_cumprod = df.groupby('id').cumprod()
print(df_cumprod)

Вывод тогда:

                obs
date       id     
2014-05-01 1     1
           2     2
           3     3
           4     4
2014-05-02 1     5
           2    10
           3    15
2014-05-03 4    20
           1    30
           2    70

Обратите внимание, что код и данные, которые вы предоставляете, имеют недостатки в нескольких отношениях и не выполняются.

Вопрос:

Ответ №1:

Вам также может понравиться

shell_exec не работает с командой ssh на виртуальной машине

Angular.js Флажки

Как сделать Asp.Net игнорировать мой физический каталог?