#pandas #scikit-learn
#pandas #scikit-learn
Вопрос:
Учитывая, что у меня есть фрейм данных X, я хочу разделить его на N фреймов данных таким образом, чтобы распределение каждого набора было примерно одинаковым (т.е. стратифицированным)
Каков наилучший способ сделать это?
Комментарии:
1. Хороший пост о стратифицированной выборке в python предлагается @flaviobossolan в kaggle.com/flaviobossolan/stratified-sampling-python
Ответ №1:
Это может быть достигнуто с помощью StratifiedKFold
from scikit-learn
, используя один из столбцов from X
в качестве того, который будет стратифицирован.