Можно ли использовать обучающий набор для определения важности переменной с использованием randomForest в R, хотя прогноз тестового набора довольно низок?

#r #random-forest #training-data

#r #случайный лес #обучение-данные

Вопрос:

Я использую randomForest в R, у меня есть обучающая модель с R ^ 2, равным 0,94, однако способность прогнозирования для тестовых данных довольно низкая. Я хотел бы знать, могу ли я по-прежнему использовать эту обучающую модель только для определения, какая переменная более важна / эффективна для прогнозирования выходных данных.

Спасибо

Ответ №1:

Основываясь на той небольшой информации, которую вы предоставляете, на этот вопрос сложно ответить (подумайте о предоставлении более подробной информации и фона). Низкое качество прогнозирования может быть результатом неправильной настройки алгоритма, или это может быть присуще данным, т. е. сами ваши предсказатели не очень сильно связаны с результатом. В первом случае прогноз мог бы быть лучше с другими параметрами, например, большим или меньшим количеством деревьев, разными значениями для mtry и т.д. Если это так, то ваши показатели важности столь же предвзяты, как и ваш прогноз (и их следует использовать с осторожностью). Если сами предсказатели слабые, это означает, что ваш прогноз низкого качества настолько хорош, насколько это возможно. В этом случае я бы сказал, что можно использовать показатели важности, но они только говорят вам, какие из ваших общих слабых предикторов более или менее слабые.