#r #machine-learning #data-structures #cluster-analysis #k-means
Вопрос:
Я просто пытаюсь разобраться со структурой входных данных при использовании кластеризации.
Допустим, у меня есть такой фрейм данных, и все переменные являются непрерывными переменными, тогда я хочу реализовать k-means/k-medoids на этом.
df <- data.frame(age = c("20", "50", "35", "45"),
height = c("160", "178", "152", "169"),
weight = c("50", "80", "65", "57"))
На мой взгляд, есть два способа реализации кластеризации, но я не уверен, какой из них обладает лучшей производительностью, или они просто эквивалентны?
- масштабируйте df и выполняйте k-средства напрямую.
- сначала вычисляем матрицу различий, а затем выполняем k-средние значения.
Я знаю, что если мои данные содержат категориальные переменные, я могу использовать расстояние Гауэра для первого вычисления матрицы различий и кластеризации, но я не уверен, что это лучший способ кластеризации, когда мои данные не включают никаких категориальных переменных?