#machine-learning #model #deterministic #stochastic
Вопрос:
Я изучаю разницу между моделями GLM (OLS, Логистическая регрессия, Нулевое завышение и т. Д.), Которые являются детерминированными, поскольку мы можем точно определить параметры, и некоторыми моделями КАРТ (Случайный лес, LightGBM, CatBoost и т. Д.), Которые основаны на стохастическом предсказании.
Я слышал, что для стохастических моделей мы должны разделиться на обучение и тестирование, чтобы избежать чрезмерной подгонки, чего не происходит в детерминированных моделях, потому что они используют линейное программирование для поиска наилучших параметров.
Я хотел бы начать кое — какую дискуссию по этому поводу.
Мое мнение таково, что это правда. Детерминированные модели-это просто решаемые уравнения, и они вообще не должны перекрывать данные, и они отличаются от стохастических моделей, основанных на случайности, для прогнозирования.
Но я обнаружил, что каждый курс говорит о разделении всех наборов данных, независимо от того, детерминирован он или нет.
Ответ №1:
В вашем вопросе есть путаница по нескольким понятиям.
- Следует ли использовать разбиения обучающих/тестовых наборов для детерминированных моделей? Если вы тренируете модель для прогнозирования, безусловно! Важно помнить, что модель прогнозирования должна обобщаться на данные, отличные от тех, которые используются для обучения. Это оценивается с помощью набора тестов. Даже если модель изучается просто как средство изучения данных, это все равно рекомендуется как способ убедиться, что она не просто слишком приспособлена к шуму.
- Второй момент путаницы заключается в том, что разделение на тренировочные и тестовые наборы позволяет избежать переоснащения. Это не так само по себе. Разделение сделано для того, чтобы можно было использовать набор тестов для проверки того, подходит ли модель. Если производительность в поезде и тестовых наборах «резко» отличается, то модель, скорее всего, подходит слишком хорошо и ее необходимо упростить, упорядочить или каким-либо иным образом ограничить.
- Другой момент относится к тому, что составляет стохастическую модель. Все модели ТЕЛЕЖКИ, о которых вы упомянули, на самом деле детерминированы в том смысле, что, как только вы тренируетесь, они всегда дают один и тот же результат для одних и тех же входных данных. Стохастичность, на которую вы, возможно, ссылались, заключается в том, что в обучении используются случайные инициализации, которые могут привести к совершенно другим конечным моделям. Если это вызывает беспокойство (например, из-за локальных оптимумов), для их устранения используйте несколько инициализаций (например, несколько перезапусков или запусков по методу Монте-Карло).
- Наконец, вы упомянули, что детерминированные модели не нуждаются в таком разделении, потому что они не могут перестроиться. Это неправда. Рассмотрим классификатор SVM с гауссовым ядром достаточно малой пропускной способности. Если решить задачу до оптимальности, обучение будет детерминированным и, скорее всего, будет соответствовать данным обучения.