#r #correlation
#r #корреляция
Вопрос:
Процентное изменение
selectedCountry <- dataset %>%
filter(country == 'Japan') %>%
select(population, suicides_no, year) %>%
group_by(year) %>%
summarise(s_count = sum(suicides_no), p_count = sum(population))
year s_count p_count
<dbl> <dbl> <dbl>
1 1979 20711 107268500
2 1980 20416 108473500
3 1981 19976 109674700
4 1982 20535 110722900
5 1983 24853 111070000
6 1984 24221 111950000
Я хочу найти корреляцию между населением и самоубийством после того, как я агрегирую население и самоубийство следующим образом
percentage <- selectedCountry %>%
arrange(year) %>%
mutate(pct.chg.s = 100 * (s_count - lag(s_count,default=first(s_count))) / lag(s_count,default=first(s_count))) %>%
mutate(pct.chg.p = 100 * (p_count - lag(p_count,default=first(p_count))) / lag(p_count,default=first(p_count))) %>%
mutate(correlation = cor(pct.chg.s, pct.chg.p))
head(percentage)
В итоге я получаю результат
year s_count p_count pct.chg.s pct.chg.p correlation
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1979 20711 107268500 0 0 0.00789
2 1980 20416 108473500 -1.42 1.12 0.00789
3 1981 19976 109674700 -2.16 1.11 0.00789
4 1982 20535 110722900 2.80 0.956 0.00789
5 1983 24853 111070000 21.0 0.313 0.00789
6 1984 24221 111950000 -2.54 0.792 0.00789
для построения корреляции между двумя переменными с использованием двухстороннего способа (я не могу быть уверен, что это правда или ложь)
ggscatter(percentage, x = "pct.chg.s", y = "pct.chg.p",
add = "reg.line", conf.int = TRUE,
cor.coef = TRUE, cor.method = "pearson",
xlab = "Percentage Change in Suicide",
ylab = "Percentage Change in Population",
color = "blue", shape = 19,
palette = c("#00AFBB", "#E7B800", "#FC4E07"),
ellipse = TRUE, mean.point = TRUE,
star.plot = TRUE)
ggplot(percentage, aes(x = pct.chg.p, y = pct.chg.s))
geom_point()
geom_smooth(method = "lm",formula = y ~ x)
labs(title = "Correlation between Pubulation and Suicides",
x = "Percentage Change in Suicide",
y = "Percentage Change in Population")
Комментарии:
1. Я не понимаю, в чем вопрос. Вы сводите свои данные к годовому уровню, а затем вычисляете корреляцию 0,00789. Итак, это корреляция…
2. @DanY корреляция одинакова для всех строк.
3. Это верно. Корреляция — это единственное значение, вычисляемое из двух векторов значений. Это немного похоже на то, как среднее значение представляет собой одно значение, вычисленное из одного вектора значений. Почему вы хотите сохранить это одно значение в каждой строке вашего набора данных, мне непонятно.
4. @DanY Я хочу посмотреть, существует ли связь между количеством населения и самоубийств, в итоге я получаю два графика, если какой-либо из них правильный. Спасибо за ваш eplay
5. Не существует такого понятия, как «правильный» график. Если вы хотите оценить, существует ли линейная зависимость между двумя переменными, то хорошей отправной точкой является корреляция или простая регрессия. Для оценки наличия линейной зависимости между X и Y можно использовать как корреляцию, так и простую регрессию. Обычно при использовании любой из этих статистических данных / методов рассматривается график зависимости X от Y. (Обратите внимание, что вы спрашиваете о самих показателях (например, о населении), но на вашей диаграмме рассеяния вы отображаете процентные изменения.)