Как оптимизировать стратифицированную случайную выборку в r с 10000 повторениями

ProgramBox

Как оптимизировать стратифицированную случайную выборку в r с 10000 повторениями

Post author:admin
Запись опубликована:8 апреля, 2023
Post category:Вопросы по программированию

#r #data.table #simulation #resampling

#r #data.table #Симуляция #повторная выборка

Вопрос:

Мне нужна функция, которая использует стратифицированную случайную выборку для многократной (10000 раз) выборки из моих данных для различных размеров выборки, вычисляет среднее значение и стандартные отклонения и возвращает коэффициент вариации для каждого размера выборки. размер выборки варьируется от 3 до 30. Я написал это до сих пор, но это слишком медленно. Мне нужна помощь, чтобы заставить ее работать быстрее, поскольку я запускаю эту часть кода много раз. Фрейм данных dt1 содержит около 900 наблюдений, K_level имеет 6 уровней

Спасибо

 samp <- function(nn){
  dt1 <- as.data.table(dt1)
  dt2 <- replicate(10000, dt1[, .SD[sample(x = .N, size = nn)], by = K_level], 
          simplify =  FALSE) %>% 
  data.table::rbindlist() %>% 
  .[,.(avg=mean(Bunch_weight), Sd = sd(Bunch_weight)),.(Trt)] %>% 
  .[, cvs:= Sd/avg] 
  dt3 <-  data.table::transpose(dt2)
  colnames(dt3) <- as.character(dt3[1,])
  dt4 <- dt3 %>% .[-c(1:3),] %>% .[, sample:= paste0(nn,"mts")]
  return(dt4)
}
# use the function
zzz <- c(3:30)
dat5 <- map_df(.x = c(3:30), .f = samp)  

my data
Block Trt Matno Cycle Date.harvested Girth0 Girth100 Hands Fingers Bunch_weight    Variety K_level
  1:    B1  T2     6     1     2020-03-05      1        1     1       1            5     NFUUKA      0K
  2:    B1  T6     2     1     2020-03-05      2        2     2       1            9     KIBUZI    150K
  3:    B1  T6     3     1     2020-03-09      3        3     1       2            5     NFUUKA    150K
  4:    B1  T6    24     1     2020-02-28      4        4     2       1            9     KIBUZI    150K
  5:    B1  T6    29     1     2020-03-03      5        5     3       3           14     NFUUKA    150K
 ---                                                                                                   
780:    B3  T9    12     1     2020-05-22      4        4     4       4            8     NFUUKA      0K
781:    B3 T10    10     1     2020-05-25    145       47     5       5           17     NFUUKA      0K
782:    B3 T11    14     1     2020-05-16     27       88     4       4           13 MBWAZIRUME     75K
783:    B3 T14    25     1     2020-05-24     39      119     4       3           14    KISANSA    150K
784:    B3 T14    34     1     2020-05-17     27       28     5       3           15  NAKITEMBE    150K

expected output
 T9                T1                T6               T14               T13                T7               T15
1: 0.359418301512993 0.259396490785659 0.352112606549899 0.270098407993612  0.33255344147661 0.246297750226982 0.290376334651094
2:  0.36336940312546 0.260242995748078 0.347937570013322  0.26993786977025 0.327215546595358 0.247590005787063 0.290659581719395
                  T8                T3                T4               T18               T17               T10               T11
1: 0.203153174250691  0.31104051648633 0.308308574237779 0.352809537743834 0.380933443587759 0.345214551318585 0.265386556956891
2:  0.20127162406244 0.311140161227165 0.303006865683816 0.350513136037457  0.37965782184899 0.342121680883066  0.26389652807615
                  T5               T12               T16                T2 Sample
1: 0.424907358546752 0.262966077905422 0.292193075443918 0.366954072154349      3mts
2: 0.413114236465515 0.264733595838422 0.296869773806402  0.36574334095091      4mts

1. вы можете просто вычислить статистику внутри replicate функции вместо того, чтобы использовать ее привязку .. вам не нужно хранить data.frame. это моя точка зрения

2. @StupidWolf как это работает внутри replicate, чтобы сделать его быстрее, чем каналы?

3. Хорошо, хммм, эта часть replicate(10000, dt1[, .SD[sample(x = .N, .. , вы повторяете свою выборку 10000 раз и привязываете список, поэтому, если nn равно 3, вы эффективно отбираете его 10000 * nn * (возможно, количество групп)

4. Если я правильно понял ваш код, то для меня это не совсем имеет смысл. Я бы написал это как replicate(10000,dt1[, .SD[sample(x = )..] %>% calculate mean,cv)

5. и, наконец, на самом деле, вам нужно только выполнить выборку вектора Bunch_weight , если вы добавите свои data.frame или data.table в нужные столбцы, вы избежите ада привязки data.frame, что ускорит вашу функцию

Ответ №1:

Это ваш код, который просто немного перетасован. Я думаю, что это дает тот же результат, но трудно сказать, поскольку случайность выполняется в другом порядке, поэтому сброс случайного начального значения не помогает. Это должно быть существенно (> в 10 раз) быстрее.

 samp2 <- function(nn){
  dt1 <- as.data.table(dt1)
  dt2 <- dt1[, .SD[as.vector(replicate(10000, sample(.N, nn)))], by = K_level, 
    .SDcols = c('Trt', 'Bunch_weight')][, 
      .(avg=mean(Bunch_weight), Sd = sd(Bunch_weight)), by = .(Trt)]
  dt2[, cvs:= Sd/avg]
  dt3 <-  data.table::transpose(dt2)
  colnames(dt3) <- as.character(dt3[1,])
  dt4 <- dt3 %>% .[-c(1:3),] %>% .[, sample:= paste0(nn,"mts")]
  return(dt4[])
}

1. спасибо @pseudospin. это намного быстрее. Я вижу, что вы объединяете данные в цепочку способом data.table, но это все. почему это быстрее? мне действительно нужно понять, что сделало мой код медленным или почему ваш быстрее

2. Я сомневаюсь, что проблема в цепочке вообще — в любом случае, вероятно, все в порядке. Разница здесь в группировке по K_level . Ваш делает это 10000 раз, а затем повторно связывает полученные целые таблицы данных вместе. Мой делает это один раз, а затем выбирает 10 000 наборов строк одновременно для каждого K_level .