#r #statistics #stochastic
#r #Статистика #стохастический
Вопрос:
предположим, у нас есть следующий набор данных (длина 24):
x <- c(30L, 49L, 105L, 115L, 118L, 148L, 178L, 185L, 196L, 210L, 236L, 236L,
278L, 287L, 329L, 362L, 366L, 399L, 430L, 434L, 451L, 451L, 477L, 488L, 508L,
531L, 533L, 542L)
Если мы вычислим сводку из пяти чисел:
Минимум — 30, максимум: 542, медиана: (287 329) /2 = 308…это была легкая часть!
- Q1 является медианой подмножества [30, 49,105,….287], длина 14 —> Q1 = [178 185]/2 = 181.5
- Q3 » » » » [329,362,…,542] = [451 451] / 2 = 451
Теперь, если мы проверим это с помощью функции summary(dataset)
… мы получаем:
Min. 1st Qu. Median Mean 3rd Qu. Max.
30.0 183.2 308.0 309.7 451.0 542.0
Почему мы получаем другой Q1? Как функция summary
вычисляет Q1?
Ответ №1:
Существует (по крайней мере) девять способов вычисления квантилей: см. ?quantile
. Для этого набора данных 9 методов приводят к 6 уникальным результатам: 2 из 9 дают ваш ответ 181,5…
res <- sapply(1:9, function(t) quantile(x, 0.25, type=t))
names(res) <- 1:9
sort(res)
## 1 3 4 6 8 9 2 5
## 178.0000 178.0000 178.0000 179.7500 180.9167 181.0625 181.5000 181.5000
## 7
## 183.2500
Метод по умолчанию в R — «тип 7», который выдает 183,25 (значение в summary
печатается с несколько меньшей точностью, поэтому отображается как 183,2).
Комментарии:
1. это ответило на ваш вопрос?