Изо всех сил пытаюсь понять вычисление Q1

#r #statistics #stochastic

#r #Статистика #стохастический

Вопрос:

предположим, у нас есть следующий набор данных (длина 24):

 x <- c(30L, 49L, 105L, 115L, 118L, 148L, 178L, 185L, 196L, 210L, 236L, 236L,
278L, 287L, 329L, 362L, 366L, 399L, 430L, 434L, 451L, 451L, 477L, 488L, 508L,
531L, 533L, 542L)
  

Если мы вычислим сводку из пяти чисел:
Минимум — 30, максимум: 542, медиана: (287 329) /2 = 308…это была легкая часть!

  • Q1 является медианой подмножества [30, 49,105,….287], длина 14 —> Q1 = [178 185]/2 = 181.5
  • Q3 » » » » [329,362,…,542] = [451 451] / 2 = 451

Теперь, если мы проверим это с помощью функции summary(dataset) … мы получаем:

 Min.   1st Qu.  Median    Mean    3rd Qu.    Max. 
30.0   183.2    308.0     309.7   451.0      542.0
  

Почему мы получаем другой Q1? Как функция summary вычисляет Q1?

Ответ №1:

Существует (по крайней мере) девять способов вычисления квантилей: см. ?quantile . Для этого набора данных 9 методов приводят к 6 уникальным результатам: 2 из 9 дают ваш ответ 181,5…

 res <- sapply(1:9, function(t) quantile(x, 0.25, type=t))
names(res) <- 1:9
sort(res)

##       1        3        4        6        8        9        2        5 
## 178.0000 178.0000 178.0000 179.7500 180.9167 181.0625 181.5000 181.5000 
##        7 
## 183.2500 
  

Метод по умолчанию в R — «тип 7», который выдает 183,25 (значение в summary печатается с несколько меньшей точностью, поэтому отображается как 183,2).

Комментарии:

1. это ответило на ваш вопрос?