#scikit-learn #random-forest #decision-tree
#scikit-учись #случайный лес #дерево решений
Вопрос:
Я думаю о том, как лучше всего установить разумное значение min_impurity_decrease
параметра для деревьев решений sklearn. Это кажется одним из самых важных критериев остановки, которые вы можете использовать, но идеальное значение параметра кажется мне очень неоднозначным.
Проблема кажется намного проще для деревьев классификации, поскольку примесь джини, естественно, колеблется между 0 и 1. Но для деревьев регрессии показатели ошибок, доступные sklearn, не имеют встроенного числового диапазона, поэтому кажется, что они почти полностью определяются вашими данными. Минимальная сумма приемлемого сокращения MSE может сильно варьироваться в зависимости от вашего домена.
Я знаю, что вы всегда можете выполнить поиск по сетке, но было бы неплохо иметь на одну степень свободы меньше при поиске параметров.
Каковы наилучшие критерии принятия решения для установки этого значения?