#r #svm #cross-validation #liblinear
#r #svm #перекрестная проверка #liblinear
Вопрос:
В случае, если мой вопрос неясен, я постараюсь привести более конкретный пример:
Я выполняю k-кратную перекрестную проверку, чтобы соответствовать параметру стоимости линейной модели SVM (я использую пакет LiblineaR в R). Итак, для каждого значения затрат у меня есть k моделей, каждая из которых обучена на разных, но перекрывающихся выборках набора данных. Затем следующим шагом является обучение модели на всем обучающем наборе и тестирование на наборе проверки, не включенном ни в один из стандартов k foldes.
Для проблемы, которую я решаю, ложные срабатывания считаются более дорогостоящими, чем ложные отрицательные результаты, поэтому на каждом из k сгибов я настраиваю порог принятия решения на основе взвешенной меры точности. Мой вопрос в том, что после того, как порог принятия решения был выбран для каждой из k моделей, имеет ли смысл брать среднее значение этих пороговых значений принятия решений и применять это к конечному результату модели?
Например, предположим, что стоимость 1 оказывается наилучшей, и у меня есть k = 4 модели, обученные со стоимостью 1. Настроенные пороговые значения принятия решений для этих 4 моделей составляют 0,12, 0,14, 0,04, 0,02, а среднее значение равно 0,08. Если я затем обучу модель, используя стоимость 1 для всего набора данных, могу ли я использовать 0,08 в качестве порога принятия решения?
Или значения решений из моделей, обученных на разных выборках, не сопоставимы, и в этом случае получение среднего значения было бы бессмысленным?
Комментарии:
1. Больше похоже на stats.stackexchange.com вопрос.
2. Спасибо за предупреждение. Я тоже разместил это на этом сайте.