#tensorflow #keras #deep-learning #lstm #recurrent-neural-network
Вопрос:
Я использую LSTM для двоичной классификации и первоначально попробовал модель с 1 единицей в выходном(плотном) слое с сигмоидой в качестве функции активации. Однако это не сработало хорошо, и я видел несколько ноутбуков, где они использовали 2 устройства в выходном слое(слой сразу после LSTM) с функцией активации softmax. Есть ли какое-либо преимущество в использовании 2 выходных слоев и использовании softmax вместо одного блока и сигмоиды(для целей двоичной классификации)? Я использую binary_crossentropy в качестве функции потерь
Комментарии:
1. Какую функцию потерь вы используете?
2. И то и другое будет правильным с точки зрения вероятности.
3. binary_crossentropy-это функция потерь
Ответ №1:
Softmax должен быть лучше, чем сигмоид, так как наклон производной сигмоиды будет почти ближе к единице(проблема исчезающего градиента)., что затрудняет классификацию. Это может быть причиной того, что softmax работает лучше, чем сигмоидная