Эффективное агрегирование между датами

#python #pandas #performance

#python #панды #Производительность

Вопрос:

Привет, у меня Df выглядит так:

   HostName      Date        
0   B   2021-01-01 12:42:00
1   B   2021-02-01 12:30:00  
2   B   2021-02-01 12:40:00  
3   B   2021-02-25 12:40:00  
4   B   2021-03-01 12:41:00  
5   B   2021-03-01 12:42:00  
6   B   2021-03-02 12:43:00  
7   B   2021-03-03 12:44:00  
8   B   2021-04-04 12:44:00  
9   B   2021-06-05 12:44:00  
10  B   2021-08-06 12:44:00  
11  B   2021-09-07 12:44:00  
12  A   2021-03-12 12:45:00  
13  A   2021-03-13 12:46:00  
 

я что делаю с агрегированием вот как я решил проблему, но она совсем неэффективна, и если есть 1 м строк
, это займет много времени
, есть ли лучший способ эффективного агрегирования между датами?

конечные результаты:

   HostName      Date        ds
0   B   2021-01-01 12:42:00  1
1   B   2021-02-01 12:30:00  2
2   B   2021-02-01 12:40:00  3
3   B   2021-02-25 12:40:00  3
4   B   2021-03-01 12:41:00  2
5   B   2021-03-01 12:42:00  3
6   B   2021-03-02 12:43:00  4
7   B   2021-03-03 12:44:00  5
8   B   2021-04-04 12:44:00  1
9   B   2021-06-05 12:44:00  1
10  B   2021-08-06 12:44:00  1
11  B   2021-09-07 12:44:00  1
12  A   2021-03-12 12:45:00  1
13  A   2021-03-13 12:46:00  2
 
 TheList = []
for index, row in df.iterrows():
    TheList.append((df[(df['Date'] > (df['Date'].iloc[index] - pd.DateOffset(months=1))) amp; (df['Date'] <= df['Date'].iloc[index])].groupby(['HostName']).size()[row[0]]))
df['ds'] = TheList
 

есть ли лучший способ сделать это, но с тем же результатом?

Комментарии:

1. Можете ли вы объяснить, как вы хотите агрегировать?

2. как и в приведенном ниже коде просто сделайте его агрегированным по эффективности на основе двух дат для каждой строки создайте агрегацию на основе имени хоста

3. @sammywemmy Я считаю, что этот фрейм данных является ожидаемым результатом. Похоже, OP пытается сгенерировать ds столбец.

Ответ №1:

Здесь используется широковещательная передача между группами, а для количества True s используется sum в пользовательской функции в GroupBy.transform :

Обратите внимание: производительность зависит также от длины групп, если здесь несколько очень больших групп, должна быть проблема с памятью.

 df['Date'] = pd.to_datetime(df['Date'])

def f(x):
    a = x.to_numpy()
    b = x.sub(pd.DateOffset(months=1)).to_numpy()
    return np.sum((a > b[:, None]) amp; (a <= a[:, None]), axis=1)

df['ds'] = df.groupby('HostName')['Date'].transform(f)

print (df)
   HostName                Date  ds
0         B 2021-01-01 12:42:00   1
1         B 2021-02-01 12:30:00   2
2         B 2021-02-01 12:40:00   3
3         B 2021-02-25 12:40:00   3
4         B 2021-03-01 12:41:00   2
5         B 2021-03-01 12:42:00   3
6         B 2021-03-02 12:43:00   4
7         B 2021-03-03 12:44:00   5
8         B 2021-04-04 12:44:00   1
9         B 2021-06-05 12:44:00   1
10        B 2021-08-06 12:44:00   1
11        B 2021-09-07 12:44:00   1
12        A 2021-03-12 12:45:00   1
13        A 2021-03-13 12:46:00   2
 

К сожалению, нужны циклы, если проблемы с памятью:

 df['Date'] = pd.to_datetime(df['Date'])
df['Date1'] = pd.to_datetime(df['Date']).sub(pd.DateOffset(months=1))

def f(x):
    one = x['Date'].to_numpy()
    both = x[['Date','Date1']].to_numpy()
    
    x['ds'] = [np.sum((one > b) amp; (one <= a))  for a, b in both]
    return x

df = df.groupby('HostName').apply(f)
print (df)
   HostName                Date               Date1  ds
0         B 2021-01-01 12:42:00 2020-12-01 12:42:00   1
1         B 2021-02-01 12:30:00 2021-01-01 12:30:00   2
2         B 2021-02-01 12:40:00 2021-01-01 12:40:00   3
3         B 2021-02-25 12:40:00 2021-01-25 12:40:00   3
4         B 2021-03-01 12:41:00 2021-02-01 12:41:00   2
5         B 2021-03-01 12:42:00 2021-02-01 12:42:00   3
6         B 2021-03-02 12:43:00 2021-02-02 12:43:00   4
7         B 2021-03-03 12:44:00 2021-02-03 12:44:00   5
8         B 2021-04-04 12:44:00 2021-03-04 12:44:00   1
9         B 2021-06-05 12:44:00 2021-05-05 12:44:00   1
10        B 2021-08-06 12:44:00 2021-07-06 12:44:00   1
11        B 2021-09-07 12:44:00 2021-08-07 12:44:00   1
12        A 2021-03-12 12:45:00 2021-02-12 12:45:00   1
13        A 2021-03-13 12:46:00 2021-02-13 12:46:00   2
 

Комментарии:

1. Спасибо. Но я не могу выделить 637 ГБ с формой массива (827195,827195)

2. @MAS — Так это значит, что есть большие группы, подобные Notice упомянутым?

3. Да, есть примерно 27 миллионов строк, возможно, есть другой подход для получения тех же результатов

4. @MAS — Добавлено новое решение, оно должно быть быстрее, чем рассматриваемое решение.