#scikit-learn #classification #decision-tree #imbalanced-data
Вопрос:
Я использую простое дерево решений для классификации. Набор данных представляет собой несбалансированный набор данных с 30 тысячами строк. используемая упаковка: sklearn.
Я использую функцию predict_probab, а затем строю дерево решений. Модель имеет 8 листьев (пробовала как предварительную, так и последующую обрезку). 50% данных разбивается на 7 листов, в то время как остальные 50% оказываются в одном листе. Есть ли способ нацелиться на этот лист и разветвлять его дальше.
Что я пытался
Я отделил 50% набора данных, который находится на одном листе, и создал для него отдельное правило. Однако мне было интересно, имеет ли смысл такой подход. Если да, то есть ли способ, которым я мог бы объединить правила .
Спасибо