Следует ли обучать детерминированные модели, разделяя их на обучаемые, тестовые наборы данных?

#machine-learning #model #deterministic #stochastic

Вопрос:

Я изучаю разницу между моделями GLM (OLS, Логистическая регрессия, Нулевое завышение и т. Д.), Которые являются детерминированными, поскольку мы можем точно определить параметры, и некоторыми моделями КАРТ (Случайный лес, LightGBM, CatBoost и т. Д.), Которые основаны на стохастическом предсказании.

Я слышал, что для стохастических моделей мы должны разделиться на обучение и тестирование, чтобы избежать чрезмерной подгонки, чего не происходит в детерминированных моделях, потому что они используют линейное программирование для поиска наилучших параметров.

Я хотел бы начать кое — какую дискуссию по этому поводу.

Мое мнение таково, что это правда. Детерминированные модели-это просто решаемые уравнения, и они вообще не должны перекрывать данные, и они отличаются от стохастических моделей, основанных на случайности, для прогнозирования.

Но я обнаружил, что каждый курс говорит о разделении всех наборов данных, независимо от того, детерминирован он или нет.

Ответ №1:

В вашем вопросе есть путаница по нескольким понятиям.

  • Следует ли использовать разбиения обучающих/тестовых наборов для детерминированных моделей? Если вы тренируете модель для прогнозирования, безусловно! Важно помнить, что модель прогнозирования должна обобщаться на данные, отличные от тех, которые используются для обучения. Это оценивается с помощью набора тестов. Даже если модель изучается просто как средство изучения данных, это все равно рекомендуется как способ убедиться, что она не просто слишком приспособлена к шуму.
  • Второй момент путаницы заключается в том, что разделение на тренировочные и тестовые наборы позволяет избежать переоснащения. Это не так само по себе. Разделение сделано для того, чтобы можно было использовать набор тестов для проверки того, подходит ли модель. Если производительность в поезде и тестовых наборах «резко» отличается, то модель, скорее всего, подходит слишком хорошо и ее необходимо упростить, упорядочить или каким-либо иным образом ограничить.
  • Другой момент относится к тому, что составляет стохастическую модель. Все модели ТЕЛЕЖКИ, о которых вы упомянули, на самом деле детерминированы в том смысле, что, как только вы тренируетесь, они всегда дают один и тот же результат для одних и тех же входных данных. Стохастичность, на которую вы, возможно, ссылались, заключается в том, что в обучении используются случайные инициализации, которые могут привести к совершенно другим конечным моделям. Если это вызывает беспокойство (например, из-за локальных оптимумов), для их устранения используйте несколько инициализаций (например, несколько перезапусков или запусков по методу Монте-Карло).
  • Наконец, вы упомянули, что детерминированные модели не нуждаются в таком разделении, потому что они не могут перестроиться. Это неправда. Рассмотрим классификатор SVM с гауссовым ядром достаточно малой пропускной способности. Если решить задачу до оптимальности, обучение будет детерминированным и, скорее всего, будет соответствовать данным обучения.