Должен ли я удалить эту переменную из моего GLM? Переменная не имеет значения, но ее взаимодействие с другим

#r #glm #poisson

#r #glm #poisson

Вопрос:

Я создаю GLM с квазипуассоновским распределением, и когда я провожу анализ отклонений, одна из моих переменных не имеет значения, но ее взаимодействие с другой имеет значение. Насколько я понимаю, вы включаете взаимодействия, когда ожидаете взаимосвязи между ними, так что по мере увеличения одного значения другое также будет увеличиваться.

Выработанный объем часов — это общее время. AAB…BW — это организаторы. Извините за ужасные имена переменных.

 Call:
glm(formula = total.debris ~ Beach.Region   Volunteers..n. * 
    worked.out.vol.hour   Survey.Window   AAB...BW, family = quasipoisson, 
    data = ltype.all)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-128.45   -22.71   -10.72     7.98   242.77  

Coefficients:
                                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)                         6.298e 00  4.650e-01  13.544  < 2e-16 ***
Beach.RegionNorth East              5.523e-01  1.142e-01   4.838 1.36e-06 ***
Beach.RegionNorth West              7.873e-01  1.233e-01   6.385 1.92e-10 ***
Beach.RegionNorthern Ireland        6.919e-01  1.554e-01   4.452 8.77e-06 ***
Beach.RegionScotland                6.168e-01  1.023e-01   6.030 1.80e-09 ***
Beach.RegionSouth East              7.663e-01  9.997e-02   7.665 2.27e-14 ***
Beach.RegionSouth West              8.261e-01  1.008e-01   8.196 3.38e-16 ***
Beach.RegionWales                   6.714e-01  1.104e-01   6.079 1.33e-09 ***
Volunteers..n.                      1.710e-02  1.235e-03  13.852  < 2e-16 ***
worked.out.vol.hour                 3.579e-03  6.620e-04   5.407 6.83e-08 ***
Survey.Window2000                   3.944e-01  1.893e-01   2.083   0.0373 *  
Survey.Window2001                   1.199e-01  1.851e-01   0.647   0.5174    
Survey.Window2002                   1.804e-01  1.773e-01   1.017   0.3090    
Survey.Window2003                   2.789e-01  1.747e-01   1.596   0.1106    
Survey.Window2004                   1.441e-01  1.738e-01   0.829   0.4069    
Survey.Window2005                   1.008e-01  1.722e-01   0.586   0.5581    
Survey.Window2006                   8.810e-02  1.718e-01   0.513   0.6081    
Survey.Window2007                   7.097e-02  1.726e-01   0.411   0.6809    
AAB...BWAAB Combined               -7.903e-01  6.679e-01  -1.183   0.2368    
AAB...BWAdopt a Beach              -6.070e-01  4.234e-01  -1.434   0.1517    
AAB...BWBeachwatch Only            -4.539e-01  4.227e-01  -1.074   0.2829    
AAB...BWBW Combined                -6.548e-01  4.863e-01  -1.347   0.1782    
Volunteers..n.:worked.out.vol.hour -2.232e-05  1.586e-06 -14.071  < 2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 1238.943)

    Null deviance: 3637808  on 3737  degrees of freedom
Residual deviance: 2952919  on 3715  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5
  

Когда я запускаю код, чтобы увидеть, какие переменные являются значимыми anova(actmod1, test="Chisq")

 Analysis of Deviance Table

Model: quasipoisson, link: log

Response: total.debris

Terms added sequentially (first to last)


                                       Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
    NULL                                                3737    3637808              
    Beach.Region                        7   141546      3730    3496262 < 2.2e-16 ***
    Volunteers..n.                      1   255212      3729    3241050 < 2.2e-16 ***
    worked.out.vol.hour                 1     1227      3728    3239823 0.3196126    
    Survey.Window                       8    17788      3720    3222035 0.0729141 .  
    AAB...BW                            4    27536      3716    3194499 0.0001807 ***
    Volunteers..n.:worked.out.vol.hour  1   241579      3715    2952919 < 2.2e-16 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1
  

worked.out.vol.hours не имеет значения при анализе отклонений, но его взаимодействие с добровольцами ..n. is, что ожидается, поскольку общее количество опрошенных часов, естественно, увеличится с увеличением количества добровольцев. Я, однако, хочу сохранить эти значения отдельно в модели. Как мне решить эту проблему? Мне просто удалить переменную вообще? Или я сохраняю ее, потому что взаимодействие является значительным?

Кроме того, любая помощь в том, как кратко сообщить об этих значениях, была бы очень признательна, поскольку я новичок в этом.

Комментарии:

1. Это не похоже на хорошую модель. Я подозреваю, что у вас слишком много параметров, и вместо этого вам следует рассмотреть возможность установки модели со смешанными эффектами. В любом случае, здесь не по теме.

2. Данные крайне низкого качества из-за того, что их собирают добровольцы, но это то, с чем мне приходится иметь дело. Я знаю, что если я получу модель, которая говорит, что она объясняет это почти идеально, то эта модель бессмысленна, потому что сами данные, которые я знаю, не могут этого показать. Мне удалять worked.out.vol.hour или нет?

3. Пожалуйста, постарайтесь понять мое предложение. Если вы не можете этого сделать, вам следует проконсультироваться со статистиком.

4. Хорошо, спасибо за помощь.