Локальные и глобальные минимумы функции затрат в логистической регрессии

#machine-learning #logistic-regression #convex-optimization #convex

#машинное обучение #логистическая регрессия #выпуклая оптимизация #выпуклый

Вопрос:

Я неправильно понимаю идею минимумов при выводе формулы логистической регрессии.

Идея состоит в том, чтобы максимально увеличить гипотезу (т.Е. Вероятность правильного прогнозирования, близкую к 1, насколько это возможно), что, в свою очередь, требует максимально возможной минимизации функции затрат $ J ( theta) $.

Теперь мне сказали, что для того, чтобы все это работало, функция затрат должна быть выпуклой. Мое понимание выпуклости требует, чтобы не было максимумов, и поэтому может быть только один минимум, глобальный минимум. Так ли это на самом деле? Если это не так, пожалуйста, объясните, почему нет. Кроме того, если это не так, то это подразумевает возможность множественных минимумов в функции затрат, что подразумевает множество наборов параметров, дающих все более высокие вероятности. Возможно ли это? Или я могу быть уверен, что возвращаемые параметры относятся к глобальным минимумам и, следовательно, к наибольшей вероятности / прогнозу?

Комментарии:

1. (1) Проблема логистической регрессии является выпуклой (2), потому что она выпуклая, локальный минимум = глобальный минимум 3) Регулирование является очень важным подходом в рамках этой задачи; например, добавление некоторых затрат для штрафа за веса (4) Регулирование на основе L2 имеет только одно решение (5) L1-регулирование на основе может иметь несколько решений одной и той же цели; все еще выпукло (6) Существуют алгоритмы, не гарантирующие сходимость к оптимуму, такие как подходы, основанные на SGD. Они по-прежнему важны в крупномасштабных opt

2. Не могли бы вы уточнить или дать некоторые ссылки на части L1 и L2, как они меняют решение? Как L! может иметь несколько решений и при этом быть выпуклым? Также ли выполнение градиентных обновлений в стиле мини-пакетов или использование некоторого оптимизатора для скорости обучения изменяет выпуклость метода или решения?

Ответ №1:

Тот факт, что мы используем выпуклую функцию затрат, не гарантирует выпуклую проблему.

Существует различие между выпуклой функцией затрат и выпуклым методом.

Типичные функции затрат, с которыми вы сталкиваетесь (перекрестная энтропия, абсолютные потери, наименьшие квадраты), должны быть выпуклыми.

Однако сложность проблемы зависит также от типа используемого вами алгоритма ML.

Линейные алгоритмы (линейная регрессия, логистическая регрессия и т. Д.) Дадут вам выпуклые решения, то есть они будут сходиться. Однако при использовании нейронных сетей со скрытыми слоями вам больше не гарантируется выпуклое решение.

Таким образом, выпуклость является мерой описания вашего метода, а не только вашей функции затрат!

LR — это метод линейной классификации, поэтому при каждом его использовании вы должны получать выпуклую задачу оптимизации! Однако, если данные не являются линейно разделяемыми, это может не дать решения, и это определенно не даст вам хорошего решения в этом случае.

Ответ №2:

Да, логистическая регрессия и линейная регрессия направлены на поиск весов и отклонений, которые повышают точность модели (или, скажем, хорошо работают с более высокой вероятностью для тестовых данных или данных реального мира). Для достижения этого мы пытаемся найти веса и отклонения таким образом, чтобы они имели наименьшие отклонения (скажем, стоимость) между прогнозом и реальными результатами. Итак, если мы построим функцию затрат и найдем ее минимумы, это достигнет той же цели. Следовательно, мы используем модель таким образом, чтобы ее функция затрат имела один локальный минимум (т. Е. Модель должна быть выпуклой)