Среднее значение описательной и квантильной регрессии

#r

Вопрос:

Я использую квантильный регрессионный анализ, чтобы установить среднюю разницу (и 95% доверительный интервал) между двумя наблюдениями. Группа 1 имеет равное число наблюдений (X =0), группа 2 (X =1) — неравное число. Y = ненормально распределенный непрерывный результат.

Другая медиана отображается для X =0 с использованием описательной статистики по сравнению с квантильной регрессией (в которой медиана X = 0 должна быть перехватом). Похоже, что описательная статистика использует среднее значение двух средних наблюдений в случае одинакового числа групп, в то время как квантильная регрессия использует второе наблюдение. Эта проблема также обсуждалась среди других в STATA (решения нет) : https://www.statalist.org/forums/forum/general-stata-discussion/general/1423807-qreg-vs-median-from-tabstat

Есть ли альтернатива quantreg, которая использует другой способ выбора среднего значения (а именно середины двух наблюдений), или кто-нибудь знает, как/где изменить базовый сценарий quantreg, чтобы настроить это?

Я знаю, что существуют разные способы вычисления медиан, и ни один из них не является правильным или неправильным.

Ниже приведен сценарий, описывающий эту проблему. Два средних наблюдения Y в X =0 равны 8 и 11.

 install.packages("quantreg")
library(quantreg)
    

M <- matrix(ncol=2,nrow=3)
colnames(M) <- c('observed','quantreg')
rownames(M) <- c('X=0','X=1','diff')
   
 TAU = 0.5
    M[1,1] <- quantile(Y[X==0],TAU)
    M[2,1] <- quantile(Y[X==1],TAU)
    M[3,1] <- quantile(Y[X==1],TAU) - quantile(Y[X==0],TAU)
    fit <- rq(Y~X,tau=.5)
    M[1,2] <- as.numeric(fit$coef[1])
    M[3,2] <- fit$coef[2]
    M
    round(M,3)
 

Это дает следующий результат:

наблюдаемый квантрег
X = 0 9.5 11
X = 1 44 NA
Разница 34.5 33

Комментарии:

1. Начальная загрузка может приблизить вас к желаемому результату, но, конечно, она не лишена предвзятости. boot_coef <- boot.rq(x = cbind(1, X), y = Y, tau = 0.5, R = 1e5, method = "wild"); mean(boot_coef$B[,1]); mean(boot_coef$B[,2])

2. Спасибо вам за ваше время и комментарии. Я действительно пробовал загрузку, которая дала более схожие результаты с наблюдаемым анализом описательной статистики, но также влияет, среди прочего, на стандартную ошибку. Я надеялся найти способ получить точно такие же результаты, скорректировав базовый метод, чтобы «выбрать» медиану.