Разве ранжирование переменных не должно быть одинаковым для MLP и RF?

#random-forest #data-modeling #shap

Вопрос:

У меня есть вопрос о ранжировании переменной важности. Я построил MLP и RF-модель, используя один и тот же набор данных с 34 переменными, и достиг той же точности на аналогичном тестовом наборе данных. Как вы можете видеть на рисунке ниже, верхние переменные для сводного графика SHAP и VIM RF совершенно разные. Интересно, что я удалил переменную низкого ранга из MLP, и точность увеличилась. Однако результат РФ не изменился. Означает ли это, что RF не является хорошим выбором для моделирования этого набора данных? Мне все еще странно, что рейтинги так сильно отличаются: сводный сюжет шапки против RF VIM, я пронумеровал переменную верхнего и нижнего рангов

введите описание изображения здесь

Комментарии:

1. Большое вам спасибо, Сергей. Ответ, который вы дали, очень помог.

Ответ №1:

Разве ранжирование переменных не должно быть одинаковым для MLP и RF?

Нет. У разных альго может быть тенденция к более высокому ранжированию определенных функций, но нет причин для того, чтобы ранжирование было одинаковым.

Различные алгоритмы:

  1. Могут иметь различные целевые функции для достижения намеченной цели.
  2. Может по-разному использовать функции для достижения минимального (максимального) значения целевой функции.

Кроме того, то, что вы называете «значимостью функций RF» (среднее снижение Джини), является лишь одним из многих способов расчета «важности функций» для RF (включая используемый вами показатель и способ расчета общего снижения из-за функции). Напротив, SHAP является агностиком модели, когда дело доходит до объяснения вклада функций в результат.

В сумме:

  1. У разных моделей будут разные мнения о том, что важно, а что нет. То, что важно для одного алгоритма, может быть не так важно для другого, и наоборот. Это ничего не говорит о применимости модели к определенному набору данных.
  2. Используйте значения SHAP (или любую другую метрику важности функций, понятную вам и вашим клиентам) для объяснения модели (при необходимости).
  3. Выберите «лучшую» модель, исходя из ваших целей: производительности или объяснимости.