#scikit-learn #cross-validation #gridsearchcv
#scikit-learn #перекрестная проверка #gridsearchcv
Вопрос:
Я хотел бы использовать GridSearchCV, но при условии, что наименьший индекс данных в наборе проверки будет больше, чем наибольший в обучающем наборе. Причина в том, что данные вовремя, а будущие данные дают несправедливое представление, которое может привести к завышению оценки. По этому поводу есть некоторое обсуждение:
Если порядок данных не является произвольным (например, выборки с одной и той же меткой класса являются смежными), для получения значимого результата перекрестной проверки может быть необходимо сначала перетасовать его. Однако обратное может быть правдой, если выборки не распределены независимо и идентично. Например, если выборки соответствуют новостным статьям и упорядочены по времени их публикации, то перетасовка данных, скорее всего, приведет к перегруженности модели и завышенной оценке проверки: она будет протестирована на выборках, которые искусственно похожи (близки по времени) на обучающие выборки.
но мне неясно, может ли какой-либо из перечисленных методов разделения выполнить то, что я ищу. Похоже, что я могу определить список индексов и передать его в cv, но в этом случае неясно, сколько я должен определить (всегда ли он использует их все? разные тесты получают разные индексы?)
Комментарии:
1. Возможно, вы можете использовать TimeSeriesSplit в аргументе cv GridSearchCV. Это хорошо задокументировано здесь: scikit-learn.org/stable/modules/generated /…
2. @Y.P Это было именно так, спасибо.