Иерархическая кластеризация R как переменная фильтра

#r #filter #cluster-analysis #feature-selection #hierarchical-clustering

#r #Фильтр #кластерный анализ #выбор функции #иерархическая кластеризация

Вопрос:

Я хотел бы проверить добавленную стоимость функций по сравнению с используемыми в настоящее время предикторами.

Во-первых, я проверил, не коррелируют ли функции с предикторами (объем и интенсивность) Я уже использую, и для тех, которые не коррелированы, я хотел бы сохранить только те, которые не имеют высокой корреляции. Итак, для каждого иерархического кластера я хотел бы сохранить функцию, которая наименее коррелирует с объемом и интенсивностью, пока я нашел только, как удалить все высокие корреляции в матрице корреляции, но я хотел бы сохранить по одному на кластер. Есть ли какой-либо пакет или код в R, который может это сделать?

Пока у меня есть это:

 tmp <- cor(data)
tmp[upper.tri(tmp)] <- 0
diag(tmp) <- 0

data.new <- data[,!apply(tmp,2,function(x) any(x > 0.7))]
  

Я новичок в программировании, поэтому любая помощь будет высоко оценена!

Комментарии:

1. Интересный вопрос. Лучшим форумом для этого может быть datascience.stackexchange.com

2. Просто из любопытства @ScottH, почему вы не предложили stats.stackexchange.com вместо этого?

3. @AlvaroAGutierrezVargas, stats.stackexchange.com это тоже было бы хорошим местом проведения. Большое совпадающее сообщество между статистикой и наукой о данных