#r #filter #cluster-analysis #feature-selection #hierarchical-clustering
#r #Фильтр #кластерный анализ #выбор функции #иерархическая кластеризация
Вопрос:
Я хотел бы проверить добавленную стоимость функций по сравнению с используемыми в настоящее время предикторами.
Во-первых, я проверил, не коррелируют ли функции с предикторами (объем и интенсивность) Я уже использую, и для тех, которые не коррелированы, я хотел бы сохранить только те, которые не имеют высокой корреляции. Итак, для каждого иерархического кластера я хотел бы сохранить функцию, которая наименее коррелирует с объемом и интенсивностью, пока я нашел только, как удалить все высокие корреляции в матрице корреляции, но я хотел бы сохранить по одному на кластер. Есть ли какой-либо пакет или код в R, который может это сделать?
Пока у меня есть это:
tmp <- cor(data)
tmp[upper.tri(tmp)] <- 0
diag(tmp) <- 0
data.new <- data[,!apply(tmp,2,function(x) any(x > 0.7))]
Я новичок в программировании, поэтому любая помощь будет высоко оценена!
Комментарии:
1. Интересный вопрос. Лучшим форумом для этого может быть datascience.stackexchange.com
2. Просто из любопытства @ScottH, почему вы не предложили stats.stackexchange.com вместо этого?
3. @AlvaroAGutierrezVargas, stats.stackexchange.com это тоже было бы хорошим местом проведения. Большое совпадающее сообщество между статистикой и наукой о данных