#pandas
#панды #pandas
Вопрос:
Я просто думаю о гипотетическом фрейме данных (df) с примерно 50 столбцами и 30000 строками и одним гипотетическим столбцом, например: Toy = [‘Мяч’, ‘Кукла’, ‘Лошадь’, …, ‘Шериф’ и т.д.]. Теперь у меня есть только имя столбца (Toy), и я хочу знать, какие переменные внутри столбца без дублированных значений.
Я имею в виду вывод, подобный функции .describe()
df['Toy'].describe()
но с дополнительной информацией, потому что теперь я получаю только этот вывод
count 30904
unique 7
top "Doll"
freq 16562
Name: Toy, dtype: object
Другими словами, как мне получить 7 значений в этом столбце. Я думал о чем-то вроде копирования столбца и удаления дублированных значений, но я почти уверен, что есть более короткий способ. Знаете ли вы правильный код или мне следует использовать другую библиотеку?
Большое вам спасибо!
Комментарии:
1. Вы ищете df[‘Toy’].unique()?
2. или
df['toy'].value_counts()
если вы хотите, чтобы каждый элемент соответствовал количеству строк.
Ответ №1:
Вы можете использовать unique()
функцию для вывода списка всех уникальных значений в ваших столбцах. В вашем случае, чтобы перечислить уникальные значения в имени столбца toys во фрейме данных df, синтаксис будет выглядеть следующим образом
df["toys"].unique()
Ответ №2:
Вы также можете использовать .drop_duplicates()
, которая возвращает серию pandas:
df['toys'].drop_duplicates()