Коэффициенты корреляции между населением и самоубийствами в Rstudio

#r #correlation

#r #корреляция

Вопрос:

Процентное изменение

 selectedCountry <- dataset %>%
  filter(country == 'Japan') %>%
  select(population, suicides_no, year) %>%
  group_by(year) %>%
  summarise(s_count = sum(suicides_no), p_count = sum(population))

   year s_count   p_count
  <dbl>   <dbl>     <dbl>
1  1979   20711 107268500
2  1980   20416 108473500
3  1981   19976 109674700
4  1982   20535 110722900
5  1983   24853 111070000
6  1984   24221 111950000
 

Я хочу найти корреляцию между населением и самоубийством после того, как я агрегирую население и самоубийство следующим образом

 percentage <- selectedCountry %>%
  arrange(year) %>%
  mutate(pct.chg.s = 100 * (s_count - lag(s_count,default=first(s_count))) / lag(s_count,default=first(s_count))) %>%
  mutate(pct.chg.p = 100 * (p_count - lag(p_count,default=first(p_count))) / lag(p_count,default=first(p_count))) %>%
  mutate(correlation = cor(pct.chg.s, pct.chg.p))

head(percentage)
 

В итоге я получаю результат

    year s_count   p_count pct.chg.s pct.chg.p correlation
  <dbl>   <dbl>     <dbl>     <dbl>     <dbl>       <dbl>
1  1979   20711 107268500      0        0         0.00789
2  1980   20416 108473500     -1.42     1.12      0.00789
3  1981   19976 109674700     -2.16     1.11      0.00789
4  1982   20535 110722900      2.80     0.956     0.00789
5  1983   24853 111070000     21.0      0.313     0.00789
6  1984   24221 111950000     -2.54     0.792     0.00789
 

для построения корреляции между двумя переменными с использованием двухстороннего способа (я не могу быть уверен, что это правда или ложь)

введите описание изображения здесь

 ggscatter(percentage, x = "pct.chg.s", y = "pct.chg.p",
          add = "reg.line", conf.int = TRUE,
          cor.coef = TRUE, cor.method = "pearson",
          xlab = "Percentage Change in Suicide",
          ylab = "Percentage Change in Population",
          color = "blue", shape = 19,
          palette = c("#00AFBB", "#E7B800", "#FC4E07"),
          ellipse = TRUE, mean.point = TRUE,
          star.plot = TRUE)
 

введите описание изображения здесь

 ggplot(percentage, aes(x = pct.chg.p, y = pct.chg.s))   
  geom_point()   
  geom_smooth(method = "lm",formula = y ~ x)   
  labs(title = "Correlation between Pubulation and Suicides", 
       x = "Percentage Change in Suicide", 
       y = "Percentage Change in Population")
 

Комментарии:

1. Я не понимаю, в чем вопрос. Вы сводите свои данные к годовому уровню, а затем вычисляете корреляцию 0,00789. Итак, это корреляция…

2. @DanY корреляция одинакова для всех строк.

3. Это верно. Корреляция — это единственное значение, вычисляемое из двух векторов значений. Это немного похоже на то, как среднее значение представляет собой одно значение, вычисленное из одного вектора значений. Почему вы хотите сохранить это одно значение в каждой строке вашего набора данных, мне непонятно.

4. @DanY Я хочу посмотреть, существует ли связь между количеством населения и самоубийств, в итоге я получаю два графика, если какой-либо из них правильный. Спасибо за ваш eplay

5. Не существует такого понятия, как «правильный» график. Если вы хотите оценить, существует ли линейная зависимость между двумя переменными, то хорошей отправной точкой является корреляция или простая регрессия. Для оценки наличия линейной зависимости между X и Y можно использовать как корреляцию, так и простую регрессию. Обычно при использовании любой из этих статистических данных / методов рассматривается график зависимости X от Y. (Обратите внимание, что вы спрашиваете о самих показателях (например, о населении), но на вашей диаграмме рассеяния вы отображаете процентные изменения.)