#python #cluster-analysis #visualization #categorical-data
#питон #кластерный анализ #визуализация #категориальный-данные
Вопрос:
В настоящее время я работаю над кластеризацией категориальных атрибутов , которые я хочу визуализировать с относительными частотами dexplot
. Атрибуты взяты из набора данных банковского маркетинга от Kaggle, на основе которого я создаю три кластера (kmodes).
km_cao = KModes(n_clusters=choosed_clusters, init = "Cao", n_init = 5, verbose = 0)
fitClusters_cao = km_cao.fit_predict(df)
clusterDf = pd.DataFrame(fitClusters_cao)
clusterDf.columns = ['Cluster']
combinedDf = pd.concat([df, clusterDf], axis = 1)
cluster_0 = combined_df[combined_df['Predicted_Cluster'] == 0]
cluster_1 = combined_df[combined_df['Predicted_Cluster'] == 1]
cluster_2 = combined_df[combined_df['Predicted_Cluster'] == 2]
cluster_0 = df[df['Cluster']==0]
cluster_0.head()
Выходной сигнал:
Я сталкиваюсь со следующими проблемами с визуализацией: я могу использовать dexplot
для отображения относительных частот по отдельности (например, состояний), но если я хочу вывести данные для всех атрибутов, это не сработает. Я не получаю сообщение об ошибке — но и сюжета тоже нет.
import dexplot as dxp
# plot for one attribute - Ok
dxp.count(val='State', data=cluster_0, normalize=True, orientation='v', title='Relative Frequency by Cluster 0')
# All attributes with no plot
for col in cluster_0:
dxp.count(val=col, data=cluster_0, normalize=True, orientation='v', title='Relative Frequency by Cluster 0')
Комментарии:
1. Вы задаете сразу несколько вопросов. Пожалуйста, сосредоточьтесь только на одном вопросе.
2. Спасибо за ваш совет. Я скорректировал свой пост.
3. Вы хотите иметь все атрибуты на 1 графике или распечатать все атрибуты на каждом отдельном графике?
4. Каждый атрибут на отдельном графике — как пример графика относительного частотного распределения состояния. Я уже думал о печати всех атрибутов на одном графике, но тогда это становится запутанным.
5. @koocer Вы не можете отобразить все атрибуты, потому что есть несколько числовых столбцов, поэтому это вызовет некоторую ошибку.