Группировка уникальных значений с низким количеством значений

#python

Вопрос:

Мой фрейм данных содержит более 40 уникальных значений для определенного атрибута. Я хочу сделать некоторую визуализацию этих данных, но сопоставление всех 40 пунктов является сложной задачей. Используя wine['country'].value_counts() , я могу видеть частоту каждого уникального значения.

Когда я собираюсь создать, например, столбчатую диаграмму, я хотел бы, чтобы все уникальные значения с количеством значений меньше 100 были сгруппированы вместе, чтобы создать собственную полосу в визуализации (и, скажем, назвать ее «rest» или «other»).

Есть какой-нибудь способ сделать это?

Ответ №1:

Инициализируйте переменную x = 0 .Выполните итерацию через, wine['country'].value_counts() используя for цикл. Затем проверьте, не меньше ли определенного значения value_counts() 100, если true, то добавьте value_counts() значение для этой конкретной итерации в x . Таким образом, у вас будет сумма таких значений, количество которых меньше 100.

Теперь перед построением диаграммы создайте новый фрейм данных, содержащий данные country vs value_counts() только с теми строками, value_counts() значение которых больше 100. Затем вручную добавьте другую строку с именем 'other' в этот новый фрейм данных, указав ее value_counts() как x . Используйте этот новый фрейм данных для построения графиков.

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

MVC 3 ninject привязывает отложенный оцененный параметр

Как я могу решить это регулярное выражение, Python?

Есть ли функция R, чтобы увидеть, как меняется их медианное значение в отношении 2 категориальных переменных?