Tidymodels: настраиваемые модели, включающие 10-кратную перекрестную проверку с использованием функции tune_grid() в R

#r #machine-learning #regression #k-fold #tidymodels

#r #машинное обучение #регрессия #k-кратная #tidymodels

Вопрос:

Обзор

Я создал четыре модели, используя пакет tidymodels с идентификатором фрейма данных (см. Ниже):

  1. Общая линейная модель
  2. Упакованное дерево
  3. Случайный лес
  4. Расширенные деревья

Фрейм данных содержит три предиктора:

  1. Год (числовой)
  2. Месяц (фактор)
  3. Дни (числовые)

Зависимой переменной является частота (числовая)

Первоначальный штраф составлял 0,1 за регуляризацию, которую я выбрал несколько произвольно. Моя цель — оценить правильное или наилучшее значение параметра регуляризации. Идея состоит в том, чтобы оценить гиперпараметр модели (модель наилучшего значения), который нельзя оценить во время обучения модели. Я пытаюсь оценить наилучшее значение штрафа, обучив множество моделей на передискретизированных наборах данных и изучив, насколько хорошо они работают. Следовательно, я создаю новую спецификацию модели для настройки модели.

Я следую этому руководству:-

https://smltar.com/mlregression.html#firstregressionevaluation

Я получаю это сообщение об ошибке

 Error: A `model` action has already been added to this workflow.

#Run rlang::last_error()

<error/rlang_error>
A `model` action has already been added to this workflow.
Backtrace:
  1. tune::tune_grid(...)
 10. workflows::add_model(., tune_spec_glm)
 11. workflows:::add_action(x, action, "model")
 13. workflows:::add_action_impl.action_fit(x, action, name)
 14. workflows:::check_singleton(x$fit$actions, name)
 15. workflows:::glubort("A `{name}` action has already been added to this workflow.")
Run `rlang::last_trace()` to see the full context.
 

Если кто-нибудь может помочь мне решить эту проблему, я был бы глубоко признателен.

Большое спасибо.

R-код

 ##Open the tidymodels package
library(tidymodels)
library(glmnet)
library(parsnip)
library(rpart.plot)
library(rpart)
library(tidyverse) # manipulating data
library(skimr) # data visualization
library(baguette) # bagged trees
library(future) # parallel processing amp; decrease computation time
library(xgboost) # boosted trees
library(ranger)
library(yardstick)
library(purrr)
library(forcats)


#split this single dataset into two: a training set and a testing set
data_split <- initial_split(FID)
# Create data frames for the two sets:
train_data <- training(data_split)
test_data  <- testing(data_split)

# resample the data with 10-fold cross-validation (10-fold by default)
cv <- vfold_cv(train_data, v=10)

###########################################################
##Produce the recipe

rec <- recipe(Frequency ~ ., data = FID) %>% 
          step_nzv(all_predictors(), freq_cut = 0, unique_cut = 0) %>% # remove variables with zero variances
          step_novel(all_nominal()) %>% # prepares test data to handle previously unseen factor levels 
          step_medianimpute(all_numeric(), -all_outcomes(), -has_role("id vars"))  %>% # replaces missing numeric observations with the median
          step_dummy(all_nominal(), -has_role("id vars")) # dummy codes categorical variables
  
##########################################################
##Produce Models
##########################################################
##General Linear Models
##########################################################

##Produce the glm model
mod_glm<-linear_reg(mode="regression",
                       penalty = 0.1, 
                       mixture = 1) %>% 
                            set_engine("glmnet")

##Create workflow
wflow_glm <- workflow() %>% 
                add_recipe(rec) %>%
                      add_model(mod_glm)

    ##Fit the glm model

###########################################################################

MODEL EVALUATION

##Estimate how well that model performs, let’s fit many times, 
##once to each of these resampled folds, and then evaluate on the heldout 
##part of each resampled fold.
##########################################################################
plan(multisession)

fit_glm <- fit_resamples(
                        wflow_glm,
                        cv,
                        metrics = metric_set(rmse, rsq),
                        control = control_resamples(save_pred = TRUE)
                        )

##Collect model predictions for each K-fold for the number of blue whale sightings

Predictions<-fit_glm %>% 
                    collect_predictions()

#######Tuning hyperparameters

##Estimating the best regularization penalty to configure the best value model 
##by estimating the best value by training many models on resamples data sets
##and exploring how well these models perform

tune_spec_glm <- linear_reg(penalty = tune(), mixture = 1) %>%
                                          set_mode("regression") %>%
                                                       set_engine("glmnet")

tune_spec_glm

##Create a regular grid of value to try using a convenience function for 
##penalty

lambda_grid <- grid_regular(penalty(), levels = 30)

lambda_grid

####

tune_rs <- tune_grid(
                    wflow_glm %>% add_model(tune_spec_glm),
                    cv,
                    grid = lambda_grid,
                    control = control_resamples(save_pred = TRUE)
                    )

##Error message

Error: A `model` action has already been added to this workflow.
Run `rlang::last_error()` to see where the error occurred.
 

Фрейм данных — FID

 structure(list(Year = c(2015, 2015, 2015, 2015, 2015, 2015, 2015, 
2015, 2015, 2015, 2015, 2015, 2016, 2016, 2016, 2016, 2016, 2016, 
2016, 2016, 2016, 2016, 2016, 2016, 2017, 2017, 2017, 2017, 2017, 
2017, 2017, 2017, 2017, 2017, 2017, 2017), Month = structure(c(1L, 
2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 1L, 2L, 3L, 4L, 
5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 
8L, 9L, 10L, 11L, 12L), .Label = c("January", "February", "March", 
"April", "May", "June", "July", "August", "September", "October", 
"November", "December"), class = "factor"), Frequency = c(36, 
28, 39, 46, 5, 0, 0, 22, 10, 15, 8, 33, 33, 29, 31, 23, 8, 9, 
7, 40, 41, 41, 30, 30, 44, 37, 41, 42, 20, 0, 7, 27, 35, 27, 
43, 38), Days = c(31, 28, 31, 30, 6, 0, 0, 29, 15, 
29, 29, 31, 31, 29, 30, 30, 7, 0, 7, 30, 30, 31, 30, 27, 31, 
28, 30, 30, 21, 0, 7, 26, 29, 27, 29, 29)), row.names = c(NA, 
-36L), class = "data.frame")
 

Ответ №1:

Вы должны использовать update_model() вместо add_model() .

 tune_rs <- tune_grid(
                    wflow_glm %>% update_model(tune_spec_glm),
                    cv,
                    grid = lambda_grid,
                    control = control_resamples(save_pred = TRUE)
                    )
 

Могу ли я также высказать некоторые общие замечания по вашему примеру:

  1. Я изменил приведенные ниже строки
 train_data <- training(FID)
test_data  <- testing(FID)
 

Для

 train_data <- training(data_split)
test_data  <- testing(data_split)
 

Я предполагаю, что это опечатка, когда вы создали пример для этого вопроса, потому что он выдает ошибку.

  1. Рецепт должен быть обучен при разделении обучения, иначе произойдет утечка данных.
    В вашем коде это на самом деле не имеет значения, поскольку обучение, prep() , выполняется в рабочем процессе, который использует данные поезда
 rec <- recipe(Frequency ~ ., data = train_data) %>% 
 
  1. Вы могли бы использовать регрессию Пуассона для вашей проблемы, поскольку результатом являются положительные целые числа. В tidymodels вы можете использовать poissonreg::poisson_reg()
    https://poissonreg.tidymodels.org /

Комментарии:

1. Спасибо за вашу помощь и ваши рекомендации. Не могли бы вы поместить аргумент poisson_reg() в этот формат?

2. mod_glm<-linear_reg(mode=»регрессия», штраф = 0,1, смесь = 1) %>% poissonreg::poisson_reg() %>% set_engine(«glmnet»)

3. При этом выдается следующее предупреждающее сообщение: Ошибка: mode должно быть одно из: «неизвестно», «регрессия» Выполняется rlang::last_error() , чтобы увидеть, где произошла ошибка. Кроме того: Предупреждающее сообщение: В if (!(mode %in% spec_modes)) rlang::abort(glue::glue(» mode должно быть одним из: «, : условие имеет длину> 1 и будет использоваться только первый элемент

4. Спасибо за ваш совет, и я исправил эти опечатки