#python #pandas #dataframe
Вопрос:
Я чувствую, что есть лучший способ, чем этот:
import pandas as pd
df = pd.DataFrame(
columns=" index c1 c2 v1 ".split(),
data= [
[ 0, "A", "X", 3, ],
[ 1, "A", "X", 5, ],
[ 2, "A", "Y", 7, ],
[ 3, "A", "Y", 1, ],
[ 4, "B", "X", 3, ],
[ 5, "B", "X", 1, ],
[ 6, "B", "X", 3, ],
[ 7, "B", "Y", 1, ],
[ 8, "C", "X", 7, ],
[ 9, "C", "Y", 4, ],
[ 10, "C", "Y", 1, ],
[ 11, "C", "Y", 6, ],]).set_index("index", drop=True)
def callback(x):
x['seq'] = range(1, x.shape[0] 1)
return x
df = df.groupby(['c1', 'c2']).apply(callback)
print df
Для достижения этой цели:
c1 c2 v1 seq
0 A X 3 1
1 A X 5 2
2 A Y 7 1
3 A Y 1 2
4 B X 3 1
5 B X 1 2
6 B X 3 3
7 B Y 1 1
8 C X 7 1
9 C Y 4 1
10 C Y 1 2
11 C Y 6 3
Есть ли способ сделать это, чтобы избежать обратного вызова?
Ответ №1:
используйте cumcount()
, см. Документы здесь
In [4]: df.groupby(['c1', 'c2']).cumcount()
Out[4]:
0 0
1 1
2 0
3 1
4 0
5 1
6 2
7 0
8 0
9 0
10 1
11 2
dtype: int64
Если вы хотите, чтобы заказы начинались с 1
In [5]: df.groupby(['c1', 'c2']).cumcount() 1
Out[5]:
0 1
1 2
2 1
3 2
4 1
5 2
6 3
7 1
8 1
9 1
10 2
11 3
dtype: int64
Комментарии:
1. как вы можете добавить счетчик в качестве дополнительного столбца?
2. @Борис Использовать
df['seq'] = df.groupby(['c1', 'c2']).cumcount()
3. Не ОП, но большое спасибо за этот отличный ответ. Можно ли с уверенностью предположить, что результат
cumcount()
всегда будет иметь ту же длину, что и исходный кадр данных, и что вы группируете по столбцам, для которых хотите выполнить подсчет?4. @BowenLiu кажется довольно безопасным предположением, так как мы считаем строки