#deep-learning #conv-neural-network
#глубокое обучение #conv-neural-network
Вопрос:
Насколько я понимаю, модель, безусловно, переобучается, если 1. сходится слишком быстро 2. потери при проверке продолжают расти
Опять же, насколько мне известно, обойти это невозможно, если вы не сведете потери при проверке к тенденции, аналогичной потере при обучении, чтобы вы могли увеличить объем данных и т.д.
Однако во многих статьях, которые я прочитал, утверждается, что 10-кратный тест является признаком надежности и показывает, что модель не переоснащена. Однако, когда я воссоздаю эти эксперименты, я могу сказать, что они действительно переобучаются, независимо от того, демонстрируют ли они надежную точность или нет. Кроме того, многие люди, похоже, думают, что они просто добавят 10-кратный тест, и все готово. В обзорах также предлагается только 10-кратное экспериментирование для устранения переобучения.
Я ошибаюсь? Есть ли надежда на потерю проверки, которая не сходится, а увеличивается? Или есть какая-то мера, помимо потери проверки?
Ответ №1:
Я полагаю, под 10-кратным тестом вы подразумеваете 10-кратную перекрестную проверку.
Обычно перекрестная проверка полезна только на очень маленьких наборах данных, т.Е. с менее чем 1000 выборками.
Переобучение означает, что сложность вашей модели намного выше, чем необходимо. Типичным признаком переобучения является очень высокая точность обучения по сравнению с низкой точностью проверки.
Следовательно, использование 10-кратной перекрестной проверки не может предотвратить переобучение как таковое. Рассмотрим два примера:
Во-первых, точность обучения 99,8%, точность 10-кратной перекрестной проверки 70%.
Во-вторых, точность обучения 77%, точность 10-кратной перекрестной проверки 70%.
В обоих случаях одна и та же 10-кратная перекрестная проверка привела к точности 70%. Однако в первом случае явно переобучение, тогда как во втором — нет.
Я надеюсь, это проясняет ситуацию.
Комментарии:
1. Я имел в виду использование 10 разбиений для экспериментов, многие статьи проводят эти эксперименты, чтобы иметь возможность сказать, что они получают близкие результаты каждый раз (скажем, около 70), но поскольку они никогда не пишут о том, как сходится их модель (потеря обучения), мы не можем знать, переобучаются они или нет
2. Кроме того, не следует ли нам проверять, больше ли мы заботимся о потерях?
3. Я не уверен, нужно ли нам заботиться о потерях в этом случае. Было бы полезно, если бы вы могли предоставить типичный пример такой статьи.
4. Хорошо, спасибо, я думаю, то, что вы говорите, подтверждает мое понимание переобучения, за исключением того, что я больше сосредоточен на потерях, скажем, у меня есть модель с показателем обучения 92 и показателем проверки 87, в то время как потери при обучении сошлись ниже 1%, но потери при проверке составляют около 8, и фактически они никогда по-настоящему не сходились (уменьшались некоторое время, затем снова увеличивались до более близкого диапазона, чем начало). Я думаю, что эта модель переобучается
5. Во многих статьях точность тестирования только в 10 раз выше, и ничего об обучении, и я думаю, что некоторые действительно переобучаются