Различия между использованием матрицы различий и матрицы данных в качестве входных данных при кластеризации в R?

#r #machine-learning #data-structures #cluster-analysis #k-means

Вопрос:

Я просто пытаюсь разобраться со структурой входных данных при использовании кластеризации.

Допустим, у меня есть такой фрейм данных, и все переменные являются непрерывными переменными, тогда я хочу реализовать k-means/k-medoids на этом.

 df <- data.frame(age = c("20", "50", "35", "45"), 
                 height = c("160", "178", "152", "169"), 
                 weight = c("50", "80", "65", "57"))

 

На мой взгляд, есть два способа реализации кластеризации, но я не уверен, какой из них обладает лучшей производительностью, или они просто эквивалентны?

  1. масштабируйте df и выполняйте k-средства напрямую.
  2. сначала вычисляем матрицу различий, а затем выполняем k-средние значения.

Я знаю, что если мои данные содержат категориальные переменные, я могу использовать расстояние Гауэра для первого вычисления матрицы различий и кластеризации, но я не уверен, что это лучший способ кластеризации, когда мои данные не включают никаких категориальных переменных?