#r #ggplot2
#r #ggplot2
Вопрос:
Я хочу создать диаграмму рассеяния из файла .csv, который включает в себя несколько подмножеств данных. Я хочу сравнить переменные и включить ключ. Это пример моего набора данных (полный набор относится к периоду 1900-2014).
Year Race Sex ALE
1900 Both Both Sexes 47.3
1900 Both Female 48.3
1900 Both Male 46.3
1900 African American Both Sexes 33
1900 African American Female 33.5
1900 African American Male 32.5
1900 Caucasian Both Sexes 47.6
1900 Caucasian Female 48.7
1900 Caucasian Male 46.6
Я назвал свой набор данных: «жизнь»
График отображается в четырех строках диаграммы рассеяния, но все они выделены синим цветом.
options(scipen = 999)
library(scales)
ggplot(data=life, aes(x=Year, y=ALE, group=1))
geom_point(colour="blue", size=.5, shape=9, fill="blue")
xlab("Year")
ylab("Life Expectancy")
ggtitle("Average Life Expectancy")
Я хочу увидеть одну диаграмму рассеяния, где сравнение мужчин, женщин, афроамериканцев, кавказцев представлено отдельной строкой отдельным цветом с ключом. Мне не хватает какого-то важного сценария, который я не могу понять. Есть ли способ нарисовать линию наилучшего соответствия?
Ответ №1:
Не могли бы вы попробовать следующее:
ggplot(data = lif, aes(x = Year, y = ALE))
geom_point(aes(colour = interaction(Race, Sex),
size = .5, shape = 9)
geom_smooth()
xlab("Year")
ylab("Life Expectancy")
ggtitle("Average Life Expectancy")
У меня нет ваших данных, поэтому я не могу протестировать этот код, но я думаю aes(colour = interaction(Race, Sex))
, что это может помочь.