Несбалансированные данные дерева решений : Высокая концентрация данных на одном листе

#scikit-learn #classification #decision-tree #imbalanced-data

Вопрос:

Я использую простое дерево решений для классификации. Набор данных представляет собой несбалансированный набор данных с 30 тысячами строк. используемая упаковка: sklearn.

Я использую функцию predict_probab, а затем строю дерево решений. Модель имеет 8 листьев (пробовала как предварительную, так и последующую обрезку). 50% данных разбивается на 7 листов, в то время как остальные 50% оказываются в одном листе. Есть ли способ нацелиться на этот лист и разветвлять его дальше.

Что я пытался

Я отделил 50% набора данных, который находится на одном листе, и создал для него отдельное правило. Однако мне было интересно, имеет ли смысл такой подход. Если да, то есть ли способ, которым я мог бы объединить правила .

Спасибо