Как создать диаграмму рассеяния из файла .csv с несколькими столбцами / подмножествами?

#r #ggplot2

#r #ggplot2

Вопрос:

Я хочу создать диаграмму рассеяния из файла .csv, который включает в себя несколько подмножеств данных. Я хочу сравнить переменные и включить ключ. Это пример моего набора данных (полный набор относится к периоду 1900-2014).

 Year    Race    Sex ALE
1900    Both    Both Sexes  47.3
1900    Both    Female  48.3
1900    Both    Male    46.3
1900    African American    Both Sexes  33
1900    African American    Female  33.5
1900    African American    Male    32.5
1900    Caucasian   Both Sexes  47.6
1900    Caucasian   Female  48.7
1900    Caucasian   Male    46.6
 

Я назвал свой набор данных: «жизнь»
График отображается в четырех строках диаграммы рассеяния, но все они выделены синим цветом.

 options(scipen = 999)
library(scales)
ggplot(data=life, aes(x=Year, y=ALE, group=1))   
  geom_point(colour="blue", size=.5, shape=9, fill="blue")  
  xlab("Year")   
  ylab("Life Expectancy")   
  ggtitle("Average Life Expectancy") 
 

Я хочу увидеть одну диаграмму рассеяния, где сравнение мужчин, женщин, афроамериканцев, кавказцев представлено отдельной строкой отдельным цветом с ключом. Мне не хватает какого-то важного сценария, который я не могу понять. Есть ли способ нарисовать линию наилучшего соответствия?

Ответ №1:

Не могли бы вы попробовать следующее:

 ggplot(data = lif, aes(x = Year, y = ALE))  
  geom_point(aes(colour = interaction(Race, Sex),
             size = .5, shape = 9)  
  geom_smooth()  
  xlab("Year")  
  ylab("Life Expectancy")  
  ggtitle("Average Life Expectancy")
 

У меня нет ваших данных, поэтому я не могу протестировать этот код, но я думаю aes(colour = interaction(Race, Sex)) , что это может помочь.