Получить частоту слов столбца pandas, содержащего списки строк

#python #pandas #dataframe

#python #pandas #фрейм данных

Вопрос:

У меня есть фрейм данных pandas:

 import pandas as pd
test = pd.DataFrame({'words':[['foo','bar none','scare','bar','foo'],
                              ['race','bar none','scare'],
                              ['ten','scare','crow bird']]})
 

Я пытаюсь получить количество слов / фраз для всех элементов списка в столбце dataframe. Мое текущее решение:

 allwords = []

for index, row in test.iterrows():
    for word in row['words']:
        allwords.append(word)
 
 from collections import Counter
pd.Series(Counter(allwords)).sort_values(ascending=False)
 

Это работает, но мне было интересно, есть ли более быстрое решение. Примечание: я не использую ' '.join() , потому что не хочу, чтобы фразы разбивались на отдельные слова.

Ответ №1:

Давайте попробуем .hstack с .value_counts :

 pd.value_counts(np.hstack(test['words']))
 

 scare        3
foo          2
bar none     2
ten          1
bar          1
crow bird    1
race         1
dtype: int64
 

Ответ №2:

Попробуйте использовать Counter :

 import collections
words = test['words'].tolist()

collections.Counter([x for sublist in words for x in sublist])
 

 Counter({'foo': 2,
         'bar none': 2,
         'scare': 3,
         'bar': 1,
         'race': 1,
         'ten': 1,
         'crow bird': 1})
 

Ответ №3:

Для повышения производительности не используйте iterrows :

 from collections import Counter
from  itertools import chain

a = pd.Series(Counter(chain.from_iterable(test['words']))).sort_values(ascending=False)
print (a)
scare        3
foo          2
bar none     2
bar          1
race         1
ten          1
crow bird    1
dtype: int64
 

Решение только для Pandas:

 a = pd.Series([y for x in test['words'] for y in x]).value_counts()
print (a)
scare        3
bar none     2
foo          2
bar          1
race         1
crow bird    1
ten          1
dtype: int64