#python #cluster-analysis #numeric #categorical-data
#python #кластерный анализ #числовой #категориальные-данные
Вопрос:
Итак, я использую алгоритм кластеризации KProtoypes для кластеризации по смешанным переменным, которые включают как категориальные, так и числовые столбцы. И я получаю ошибку:
‘>’ не поддерживается между экземплярами ‘str’ и ‘int’
А также все функции имеют согласованные типы данных. Я поделился фрагментом кода, который я использовал для запуска вместе со скриншотом данных. Я просто хочу сгруппировать этот тип данных, любое предложение по кластеризации будет принято.
Кроме того, мои данные следующие:
И информация о данных выглядит следующим образом :
И это код, который я написал для алгоритма k_prototype :
kp = KPrototypes(n_clusters=3, init=’random’, verbose=True)
kp.fit(X_dummy,категориальный =[7,8,9,10,11,12,13])
Кроме того, проверьте список категорий, который я передал в kp.fit
Ответ №1:
Столбец L в вашей таблице содержит строки и числа ( 0
).
Это, вероятно, вызывает ошибку.
Ответ №2:
Это сообщение предполагает, что вы пытаетесь сравнить строковый объект (str)
с целым числом (int)
. Вам необходимо очистить данные перед применением алгоритма. Ввод мусора — это вывод мусора.