Стратифицированная выборка фрейма данных на N разбиений без замены

#pandas #scikit-learn

#pandas #scikit-learn

Вопрос:

Учитывая, что у меня есть фрейм данных X, я хочу разделить его на N фреймов данных таким образом, чтобы распределение каждого набора было примерно одинаковым (т.е. стратифицированным)

Каков наилучший способ сделать это?

Комментарии:

1. Хороший пост о стратифицированной выборке в python предлагается @flaviobossolan в kaggle.com/flaviobossolan/stratified-sampling-python

Ответ №1:

Это может быть достигнуто с помощью StratifiedKFold from scikit-learn , используя один из столбцов from X в качестве того, который будет стратифицирован.