#python #pandas #machine-learning #statistics #confidence-interval
#python #панды #машинное обучение #Статистика #доверительный интервал
Вопрос:
Я следил за одним из онлайн-руководств, касающихся пошаговых регрессий с использованием boston
набора данных. В коде нет ничего плохого, но я просто хочу понять, что я вижу. Итак, я выполнил прямой выбор ниже:
sfs = SFS(LinearRegression(),
k_features=(3,11),
forward=True,
floating=False,
scoring='neg_mean_squared_error',
cv=4)
sfs.fit(X, y)
После этого я визуализирую данные в DataFrame, как показано ниже:
pd.DataFrame.from_dict(sfs.get_metric_dict()).T
Что означают значения в столбце ci_bound
?
Ответ №1:
Похоже, вы используете mlxtend’s SequentialFeatureSelector
. Что делают алгоритмы этого семейства, так это добавляют или удаляют функции и анализируют влияние, которое они оказывают на показатели алгоритмов. Как упоминалось в документах, ci_bound
это дает вам confidence interval around the computed cross-validation scores
. По умолчанию 95%
используется доверительный интервал, но вы можете установить для него другое значение, используя confidence_interval
.
Доверительные интервалы предположительно получены путем повторения времени перекрестной проверки K
(K-кратная перекрестная проверка). Итак, то, что вы видите в результирующем фрейме данных, — это оценки, полученные в результате оценки с использованием данного подмножества признаков, и доверительный интервал, связанный с этими оценками.
Комментарии:
1. Вы правы. Я прочитал документы, но все еще не совсем уверен, что означают значения в
ci_bound
столбце. Например, для строки 1 значение ci_bound равно 31.189. Что означает 31.189 в этом контексте? Оцените, есть ли для этого объяснение непрофессионала.2. это доверительный интервал среднего балла. Это мера неопределенности результатов, которые вы видите. Чем ниже, тем больше вы можете «доверять» этим оценкам @ZhengYang
3. Понятно, спасибо. При CI со средним значением> 25 я предполагаю, что это означает, что эти оценки «не заслуживают доверия»
4. ДА. Вероятно, это произойдет только для небольшого количества функций @ZhengYang