Применить функцию ко всем значениям, относящимся к одному и тому же дню

#python #pandas #datetime #apply

#python #панды #дата и время #применить

Вопрос:

У меня есть этот фрейм данных:

 dates,rr.price,ax.price,be.price
2018-01-01 00:00:00,45.73,45.83,47.63
2018-01-01 01:00:00,44.16,44.59,44.42
2018-01-01 02:00:00,42.24,40.22,42.34
2018-01-01 03:00:00,39.29,37.31,38.36
2018-01-01 04:00:00,36,32.88,36.87
2018-01-01 05:00:00,41.99,39.27,39.79
2018-01-01 06:00:00,42.25,43.62,42.08
2018-01-01 07:00:00,44.97,49.69,51.19
2018-01-01 08:00:00,45,49.98,59.69
2018-01-01 09:00:00,44.94,48.04,56.67
2018-01-01 10:00:00,45.04,46.85,53.54
2018-01-01 11:00:00,46.67,47.95,52.6
2018-01-01 12:00:00,46.99,46.6,50.77
2018-01-01 13:00:00,44.16,43.02,50.27
2018-01-01 14:00:00,45.26,44.2,50.64
2018-01-01 15:00:00,47.84,47.1,54.79
2018-01-01 16:00:00,50.1,50.83,60.17
2018-01-01 17:00:00,54.3,58.31,59.47
2018-01-01 18:00:00,51.91,63.5,60.16
2018-01-01 19:00:00,51.38,61.9,70.81
2018-01-01 20:00:00,49.2,59.62,62.65
2018-01-01 21:00:00,45.73,52.84,59.71
2018-01-01 22:00:00,44.84,51.43,50.96
2018-01-01 23:00:00,38.11,45.35,46.52
2018-01-02 00:00:00,19.19,41.61,49.62
2018-01-02 01:00:00,14.99,40.78,45.05
2018-01-02 02:00:00,11,39.59,45.18
2018-01-02 03:00:00,10,36.95,37.12
2018-01-02 04:00:00,11.83,31.38,38.03
2018-01-02 05:00:00,14.99,34.02,46.17
2018-01-02 06:00:00,40.6,41.27,51.71
2018-01-02 07:00:00,46.99,48.25,54.37
2018-01-02 08:00:00,47.95,43.57,75.3
2018-01-02 09:00:00,49.9,48.34,68.48
2018-01-02 10:00:00,50,48.01,61.94
2018-01-02 11:00:00,49.7,52.22,63.26
2018-01-02 12:00:00,48.16,47.47,59.41
2018-01-02 13:00:00,47.24,47.61,60
2018-01-02 14:00:00,46.1,49.12,67.44
2018-01-02 15:00:00,47.6,52.38,66.82
2018-01-02 16:00:00,50.45,58.35,72.17
2018-01-02 17:00:00,54.9,61.4,70.28
2018-01-02 18:00:00,57.18,54.58,62.63
2018-01-02 19:00:00,54.9,53.66,63.78
2018-01-02 20:00:00,51.2,54.15,63.08
2018-01-02 21:00:00,48.82,48.67,56.42
2018-01-02 22:00:00,45.14,47.46,49.85
2018-01-02 23:00:00,40.09,42.46,43.87

 

Я прочитал фрейм данных как:

 df=pd.read_csv('./test.csv',header = 0, index_col=0, parse_dates=True,
               usecols=['dates','rr.price','ax.price','be.price'])
 

Я хотел бы вычислить RMSE со всеми почасовыми данными, относящимися к одному и тому же дню.

Я имею в виду, я бы хотел, чтобы каждый день применялся

 err = 0
for i in range(0:24):
    err = err   (dfr['rr.price'].values-dfr['be.price'].values).pow(2)

err = (err/24).pow(0.5)
 

В результате у меня должны быть столбцы со значением 365 err, к которым применяется среднее значение за месяц с

 resample('MS').mean()
 

С месяцами я использую для:

  dfr = dfr.assign(month=lambda x: x.index.month).groupby('month')
 rmse = dfr.apply(rmse,   s1='rr.price',s2='ax.price')

def rmse(group,s1,s2):
    if len(group) == 0:
        return np.nan
    s = (group[s1] - group[s2]).pow(2).sum()
    rmseO = np.sqrt(s / len(group)) 
    return rmseO
 

но, похоже, это неправильно с days.

Здесь я ожидал два значения, по одному на каждый день

 5.04
6.30
 

между ‘rr.price’ и ‘be.price’.

Комментарии:

1. пожалуйста, опубликуйте ожидаемый результат. для каждой даты будет одно значение rmse??? здесь 2 даты, значит, 2 значения??? Вы этого хотите?

2. Я получаю 1.027839 за первое свидание

3. Я обновил свой ответ, пожалуйста, проверьте. Вы указали неправильное ожидаемое значение. Это будут значения, которые я упомянул в качестве ожидаемого значения

4. Пожалуйста, не отвечайте на вопрос. Я откатил / отредактировал ваш вопрос и удалил ответ. Добавьте ответ только в раздел ответов.

Ответ №1:

Вы можете попробовать что-то вроде этого:

Эта группа по дате и часу (дает вам подсказку для вашего предыдущего вопроса):

 df.dates = pd.to_datetime(df.dates)
df.groupby([df.dates.dt.date, df.dates.dt.hour]).apply(lambda x: x['AA'].mean())
 

Возвращаясь к вашему вопросу:

 df.dates = pd.to_datetime(df.dates)
df.groupby([df.dates.dt.date]).apply(lambda x: ((x['AA']-x['BB'])**2).cumsum().div(24))
 

Если вы хотите rmse для каждой даты:

 df.groupby([df.dates.dt.date]).apply(lambda x: ((x['AA']-x['BB'])**2).cumsum()).reset_index(drop=True)[::23].pow(0.5).div(24)
 

Редактировать:

 df.dates = pd.to_datetime(df.dates)
x = df.groupby([df.dates.dt.date]).apply(lambda x: ((x['rr.price']-x['ax.price'])**2).cumsum())[23::24].pow(0.5).div(24)
 

 dates         
2018-01-01  23    1.027839
2018-01-02  47    2.519040
dtype: float64
 

Комментарии:

1. df.groupby([df.dates.dt.date]).apply(lambda x: ((x['AA']-x['BB'])**2).cumsum()).mul(2).div(24)

2. Извините, я не получил ваш вопрос, но вы можете изменить код в соответствии с вашими потребностями.

3. что-то выходит. Два вопроса, если можно. Во-первых, «df.dates.dt.date» выдает ошибку. Это связано с тем, что я использую «index_col=0, parse_dates=True». Во-вторых, могу ли я определить функцию и использовать ее в приложении. Раньше я делал это с ежемесячными вычислениями.

4. Да, вы можете преобразовать эту лямбда-функцию в функцию. Кстати, это лямбда-выражение является аномальной функцией.

5. Я изменил вопрос. Надеюсь, это может помочь. Извините, я не совсем ясно выразился.

Ответ №2:

Это мое решение (спасибо @pygirl):

   def rmse(group,s1,s2):
        if len(group) == 0:
            return np.nan
        s = (group[s1] - group[s2]).pow(2).sum()
        rmseO = np.sqrt(s / len(group)) 
        return rmseO 
    
    
dfr=pd.read_csv('./test.csv',header = 0, index_col=0, parse_dates=True,
                   usecols=['dates','rr.price','ax.price','be.price'])

dfr = dfr.assign(date=lambda x: x.index.date).groupby('date')
 
dfrM = pd.DataFrame()
dfrM['ax.rmse'] = dfr.apply(rmse,   s1='rr.price',s2='ax.price')
dfrM['be.rmse'] = dfr.apply(rmse,   s1='rr.price',s2='be.price')

dfrM.index = pd.to_datetime(dfrM.index,format='%Y-%m-%d')

dfrM= dfrM.resample('MS').mean()