Я получаю ошибку при кластеризации с помощью алгоритма кластеризации KPrototyping для кластеризации категориальных и числовых данных

#python #cluster-analysis #numeric #categorical-data

#python #кластерный анализ #числовой #категориальные-данные

Вопрос:

Итак, я использую алгоритм кластеризации KProtoypes для кластеризации по смешанным переменным, которые включают как категориальные, так и числовые столбцы. И я получаю ошибку:

‘>’ не поддерживается между экземплярами ‘str’ и ‘int’

А также все функции имеют согласованные типы данных. Я поделился фрагментом кода, который я использовал для запуска вместе со скриншотом данных. Я просто хочу сгруппировать этот тип данных, любое предложение по кластеризации будет принято.

Кроме того, мои данные следующие: просмотр данных в Excel

И информация о данных выглядит следующим образом : Информация о данных

И это код, который я написал для алгоритма k_prototype :

kp = KPrototypes(n_clusters=3, init=’random’, verbose=True)
kp.fit(X_dummy,категориальный =[7,8,9,10,11,12,13])

Кроме того, проверьте список категорий, который я передал в kp.fit

Ответ №1:

Столбец L в вашей таблице содержит строки и числа ( 0 ).

Это, вероятно, вызывает ошибку.

Ответ №2:

Это сообщение предполагает, что вы пытаетесь сравнить строковый объект (str) с целым числом (int) . Вам необходимо очистить данные перед применением алгоритма. Ввод мусора — это вывод мусора.