#python #pandas #dataframe
#python #pandas #фрейм данных
Вопрос:
У меня есть фрейм данных pandas:
import pandas as pd
test = pd.DataFrame({'words':[['foo','bar none','scare','bar','foo'],
['race','bar none','scare'],
['ten','scare','crow bird']]})
Я пытаюсь получить количество слов / фраз для всех элементов списка в столбце dataframe. Мое текущее решение:
allwords = []
for index, row in test.iterrows():
for word in row['words']:
allwords.append(word)
from collections import Counter
pd.Series(Counter(allwords)).sort_values(ascending=False)
Это работает, но мне было интересно, есть ли более быстрое решение. Примечание: я не использую ' '.join()
, потому что не хочу, чтобы фразы разбивались на отдельные слова.
Ответ №1:
Давайте попробуем .hstack
с .value_counts
:
pd.value_counts(np.hstack(test['words']))
scare 3
foo 2
bar none 2
ten 1
bar 1
crow bird 1
race 1
dtype: int64
Ответ №2:
Попробуйте использовать Counter
:
import collections
words = test['words'].tolist()
collections.Counter([x for sublist in words for x in sublist])
Counter({'foo': 2,
'bar none': 2,
'scare': 3,
'bar': 1,
'race': 1,
'ten': 1,
'crow bird': 1})
Ответ №3:
Для повышения производительности не используйте iterrows
:
from collections import Counter
from itertools import chain
a = pd.Series(Counter(chain.from_iterable(test['words']))).sort_values(ascending=False)
print (a)
scare 3
foo 2
bar none 2
bar 1
race 1
ten 1
crow bird 1
dtype: int64
Решение только для Pandas:
a = pd.Series([y for x in test['words'] for y in x]).value_counts()
print (a)
scare 3
bar none 2
foo 2
bar 1
race 1
crow bird 1
ten 1
dtype: int64