Могу ли я выполнить Post Hoc анализ основных компонентов?

#r #statistics #regression #pca #posthoc

#r #Статистика #регрессия #pca #posthoc

Вопрос:

Я выполнил PCA для своих данных, и у меня есть 4 основных компонента. Однако очень сложно интерпретировать мои результаты с использованием основных компонентов. Поэтому мне было интересно, могу ли я выполнить post hoc, взяв переменную с наибольшей дисперсией в PC1 (скажем, X1) и переменную с наибольшими дисперсиями в PC2 (скажем, X2) и выполнив регрессионный анализ с переменной результата y, чтобы проверить их связь? (т.е. lm(Y ~ X1 X2))

Вот пример: у меня есть 4 независимые переменные: тест памяти, тест познания, тест внимания и тест скорости обработки. У меня есть 1 зависимая переменная, подключение к мозгу. Поэтому, как только я выполняю PCA, я получаю что-то вроде этого:

 PC1: 0.7X1 0.2x3
PC2: 0.8X2
PC3: 0.8X3 0.4X4
PC4: 0.1X4
  

PC1 и PC2 объясняют 82% различий в данных. Однако я не уверен, что делать с этой информацией. Как я могу интерпретировать эту информацию на основе моих исходных переменных? Итак, я думал выполнить регрессию между переменными, найденными в основных компонентах, чтобы дополнительно проанализировать, какие компоненты могут определять это различие.
Lm (проверка подключения ~ памяти когнитивных способностей)

Имеет ли это смысл? Как я могу это сделать?

Комментарии:

1. Можете ли вы попытаться уточнить, что вы сделали немного больше? Может быть, предоставить небольшой, но воспроизводимый пример. Что касается более «теоретической» стороны вашего вопроса, почему вы пытаетесь выполнить регрессионный анализ для переменных, которые линейно независимы? Моя точка зрения такова: основная цель анализа PCA — разделить ваши переменные на ортогональные, линейно независимые переменные. Таким образом, вы не нашли бы связи между ними.

2. Конечно, я добавил более подробный пример. пожалуйста, смотрите выше @eduardokapp

Ответ №1:

В конце концов, результат анализа PCA означает, что он сообщает вам, какая комбинация переменных приводит к наибольшей дисперсии. Как вы указали, PC1 и PC2 объясняют большую часть различий (или информации) в вашем наборе данных. Почему? Потому что их собственные значения самые высокие.

Теперь вы могли бы, например, удалить переменную X4 , поскольку она присутствует только в наименее важных компонентах. Что касается идеи проведения регрессионного анализа «post-hoc» на PC1 и PC2, я не думаю, что это вас куда-нибудь приведет.. PC1 и PC2, по определению, линейно независимы. Таким образом, между ними нет линейной зависимости.

Проясняет ли что-нибудь из этого ваши сомнения?

Я открыт для дальнейших обсуждений 🙂

Комментарии:

1. Спасибо за разъяснение, но мне было интересно, могу ли я извлечь переменную с максимальной загрузкой на PC1 (x1) и переменную с максимальной загрузкой на PC2 (x2) и выполнить линейную регрессию для переменных: lm (y ~ x1 x2), а не для основных компонентов. Я предполагаю, что это будет форма извлечения переменных. Причина, по которой я бы сделал это, заключается в том, что я хочу включить независимые переменные, которые некоррелированы, чтобы избежать проблемы мультиколлинеарности. Я не уверен, имеет ли смысл моя логика.

2. О, я понимаю. Я почти уверен, что выполнение линейной регрессии между X1 и X2 имеет смысл, теперь, когда я понял, что вы имели в виду! X1 и X2 зависят на некотором уровне, поэтому это должно дать вам соответствующую взаимосвязь.

3. @J.Doe на ваш вопрос дан ответ?