Является ли выходной слой с 2 единицами и softmax идеальным для двоичной классификации с использованием LSTM?

#tensorflow #keras #deep-learning #lstm #recurrent-neural-network

Вопрос:

Я использую LSTM для двоичной классификации и первоначально попробовал модель с 1 единицей в выходном(плотном) слое с сигмоидой в качестве функции активации. Однако это не сработало хорошо, и я видел несколько ноутбуков, где они использовали 2 устройства в выходном слое(слой сразу после LSTM) с функцией активации softmax. Есть ли какое-либо преимущество в использовании 2 выходных слоев и использовании softmax вместо одного блока и сигмоиды(для целей двоичной классификации)? Я использую binary_crossentropy в качестве функции потерь

Комментарии:

1. Какую функцию потерь вы используете?

2. И то и другое будет правильным с точки зрения вероятности.

3. binary_crossentropy-это функция потерь

Ответ №1:

Softmax должен быть лучше, чем сигмоид, так как наклон производной сигмоиды будет почти ближе к единице(проблема исчезающего градиента)., что затрудняет классификацию. Это может быть причиной того, что softmax работает лучше, чем сигмоидная