Столбчатая диаграмма в R при управлении для ковариации

#r #ggplot2 #bar-chart

#r #ggplot2 #гистограмма

Вопрос:

У меня есть набор данных, содержащий доход, возраст, пол и должность в компании.

Я хочу создать гистограмму, которая показывает средний доход для каждой должности по полу в компании при контроле / корректировке возраста.

Я не уверен, правильно ли я это делаю.

Было бы очень хорошо, если бы кто-нибудь мог проверить, является ли это правильным способом исправления ковариации в гистограмме.

Большое вам спасибо (заранее),

Код

В основном я создаю группы по возрасту и полу, а затем вычисляю среднее значение. После этого я создаю группы только для позиции и пола и беру среднее значение для этих новых групп.

 plot_data %>%  
  # age as qualitative
  mutate(Age = fct_collapse(as.character(Age), 
                                 `< 30`  = as.character(c(26, 27, 29, 30)),
                                 `31-35` = as.character(seq(31, 35)),
                                 `36-40` = as.character(seq(36, 40)),
                                 `41-45` = as.character(seq(41, 45)),
                                 `46-50` = as.character(seq(46, 50)),
                                 `51-55` = as.character(seq(51, 55)),
                                 `56-60` = as.character(seq(56, 60)),
                                 `61-65` = as.character(seq(61, 65)),
                                 `65 >`  = as.character(c(65:69, 71, 75)))) %>% 
  mutate(month_income = year_income / 12) %>% 
  group_by(Position, Age, Gender) %>% 
  summarise(mean_po_age_gen = mean(month_income)) %>% 
  ungroup() %>% 
  # correct for age
  group_by(Position, Gender) %>% 
  mutate(month_income_control = mean(mean_po_age_gen)) %>% 
  ggplot(aes(x = reorder(Position, - month_income_control), y = month_income_control))  
  geom_bar(aes(fill = Gender), position = "dodge", 
           stat = "identity", width = 0.7)  
  labs(y = "Monthly income", x = "position",
       title = "Monthly income corrected for age")  
  theme_bw()
  

Комментарии:

1. по сути, вы разбиваете возраст на группы, вычисляете среднее значение для каждой позиции и гендерной группы, затем берете среднее значение этого и строите график

2. ваш вопрос не очень понятен … потому что что представляет собой хороший способ контроля? То, что вы делаете, в основном взвешивает каждую возрастную группу одинаково.. что в определенной степени нормально. я не понимаю, как здесь применяется control или covariate

3. Я имею в виду, что я хочу посмотреть, каковы различия в доходах между мужчинами и женщинами, и поскольку (я знаю, что) переменный возраст играет роль в доходе, я хочу исправить этот эффект. Я хочу увидеть влияние пола на доход таким образом, чтобы исключить влияние возраста. Это более понятно?

4. Нет, это непонятно. Каков ожидаемый результат? Что означает хороший контроль? Мы не знаем ваших данных. Я полагаю, вы можете сделать свой график выше, ориентированный на возрастную группу. Это покажет вам, сохраняется ли тенденция в разных возрастных группах или специфична для одной. Это намного проще объяснить или интерпретировать, чем приведенные выше вычисления

5. Тогда я последую вашему предложению. Спасибо за ваше время (: