#r
Вопрос:
Я использую квантильный регрессионный анализ, чтобы установить среднюю разницу (и 95% доверительный интервал) между двумя наблюдениями. Группа 1 имеет равное число наблюдений (X =0), группа 2 (X =1) — неравное число. Y = ненормально распределенный непрерывный результат.
Другая медиана отображается для X =0 с использованием описательной статистики по сравнению с квантильной регрессией (в которой медиана X = 0 должна быть перехватом). Похоже, что описательная статистика использует среднее значение двух средних наблюдений в случае одинакового числа групп, в то время как квантильная регрессия использует второе наблюдение. Эта проблема также обсуждалась среди других в STATA (решения нет) : https://www.statalist.org/forums/forum/general-stata-discussion/general/1423807-qreg-vs-median-from-tabstat
Есть ли альтернатива quantreg, которая использует другой способ выбора среднего значения (а именно середины двух наблюдений), или кто-нибудь знает, как/где изменить базовый сценарий quantreg, чтобы настроить это?
Я знаю, что существуют разные способы вычисления медиан, и ни один из них не является правильным или неправильным.
Ниже приведен сценарий, описывающий эту проблему. Два средних наблюдения Y в X =0 равны 8 и 11.
install.packages("quantreg")
library(quantreg)
M <- matrix(ncol=2,nrow=3)
colnames(M) <- c('observed','quantreg')
rownames(M) <- c('X=0','X=1','diff')
TAU = 0.5
M[1,1] <- quantile(Y[X==0],TAU)
M[2,1] <- quantile(Y[X==1],TAU)
M[3,1] <- quantile(Y[X==1],TAU) - quantile(Y[X==0],TAU)
fit <- rq(Y~X,tau=.5)
M[1,2] <- as.numeric(fit$coef[1])
M[3,2] <- fit$coef[2]
M
round(M,3)
Это дает следующий результат:
наблюдаемый | квантрег | |
---|---|---|
X = 0 | 9.5 | 11 |
X = 1 | 44 | NA |
Разница | 34.5 | 33 |
Комментарии:
1. Начальная загрузка может приблизить вас к желаемому результату, но, конечно, она не лишена предвзятости.
boot_coef <- boot.rq(x = cbind(1, X), y = Y, tau = 0.5, R = 1e5, method = "wild"); mean(boot_coef$B[,1]); mean(boot_coef$B[,2])
2. Спасибо вам за ваше время и комментарии. Я действительно пробовал загрузку, которая дала более схожие результаты с наблюдаемым анализом описательной статистики, но также влияет, среди прочего, на стандартную ошибку. Я надеялся найти способ получить точно такие же результаты, скорректировав базовый метод, чтобы «выбрать» медиану.