Что означает «ci_bound» в SequentialFeatureSelector?

#python #pandas #machine-learning #statistics #confidence-interval

#python #панды #машинное обучение #Статистика #доверительный интервал

Вопрос:

Я следил за одним из онлайн-руководств, касающихся пошаговых регрессий с использованием boston набора данных. В коде нет ничего плохого, но я просто хочу понять, что я вижу. Итак, я выполнил прямой выбор ниже:

 sfs = SFS(LinearRegression(), 
          k_features=(3,11), 
          forward=True, 
          floating=False,
          scoring='neg_mean_squared_error',
          cv=4)
sfs.fit(X, y)
  

После этого я визуализирую данные в DataFrame, как показано ниже:

 pd.DataFrame.from_dict(sfs.get_metric_dict()).T
  

что дает мне:
визуализация данных в DataFrame

Что означают значения в столбце ci_bound ?

Ответ №1:

Похоже, вы используете mlxtend’s SequentialFeatureSelector . Что делают алгоритмы этого семейства, так это добавляют или удаляют функции и анализируют влияние, которое они оказывают на показатели алгоритмов. Как упоминалось в документах, ci_bound это дает вам confidence interval around the computed cross-validation scores . По умолчанию 95% используется доверительный интервал, но вы можете установить для него другое значение, используя confidence_interval .

Доверительные интервалы предположительно получены путем повторения времени перекрестной проверки K (K-кратная перекрестная проверка). Итак, то, что вы видите в результирующем фрейме данных, — это оценки, полученные в результате оценки с использованием данного подмножества признаков, и доверительный интервал, связанный с этими оценками.

Комментарии:

1. Вы правы. Я прочитал документы, но все еще не совсем уверен, что означают значения в ci_bound столбце. Например, для строки 1 значение ci_bound равно 31.189. Что означает 31.189 в этом контексте? Оцените, есть ли для этого объяснение непрофессионала.

2. это доверительный интервал среднего балла. Это мера неопределенности результатов, которые вы видите. Чем ниже, тем больше вы можете «доверять» этим оценкам @ZhengYang

3. Понятно, спасибо. При CI со средним значением> 25 я предполагаю, что это означает, что эти оценки «не заслуживают доверия»

4. ДА. Вероятно, это произойдет только для небольшого количества функций @ZhengYang