#python #lstm #recurrent-neural-network
#python #lstm #рекуррентная нейронная сеть
Вопрос:
Я пытаюсь найти интуитивное объяснение работы LSTM RNN. Я нашел много статей и руководств, которые описывают архитектуру и уравнения для работы LSTM, а также ряд «размашистых» описаний того, как элементы управления могут добавлять или забывать элементы, хранящиеся в «памяти ячейки». То, что я надеялся найти, было четким описанием того, как сеть обучается способом, который иллюстрирует, как можно управлять различными шлюзами.
Чтобы задать правильный вопрос, приведу две цитаты из двух источников, в которых используются фразы, которые только усиливают мое замешательство, поэтому, если позволите, я сделаю небольшое отступление, чтобы описать их, а затем задам вопросы, которые меня озадачивают.
В первом примере, который представляет собой отличное и хорошо цитируемое эссе о работе LSTM (смотрите здесь), есть абзац, который гласит:
«Давайте вернемся к нашему примеру языковой модели, пытающейся предсказать следующее слово на основе всех предыдущих. В такой задаче состояние ячейки может включать пол текущего субъекта, чтобы можно было использовать правильные местоимения. Когда мы видим нового субъекта, мы хотим забыть пол старого субъекта.»
И во втором примере из не менее хорошей статьи (ссылки ), исследующей внутренние операции сети LSTM, есть предложение:
«LSTM предположительно мог бы хранить сводку ранее просмотренных символов в данных и использовать эту память, когда она неопределенна».
Итак, мои вопросы, относящиеся к этим двум примерам, заключаются в следующем.
Во-первых, что касается первого примера, это подразумевает, что LSTM знает о субъекте и что у субъекта есть пол, так что при появлении нового субъекта пол должен измениться. Итак, вопрос в том, как сеть может быть осведомлена о том, что такое объект, что у него есть пол и что объект изменился. Это что-то, что вводится на этапе обучения?
Во втором примере кажется, что работа сети в лучшем случае непрозрачна (что, как я принимаю, было частью цели этой статьи объяснить некоторые из этих неизвестных). Итак, мои вторые вопросы: является ли стремление понять внутреннюю работу LSTM бессмысленной задачей и просто полагаться на объяснения его работы, «размахивающие руками»?
И мой последний вопрос, если утверждение «Нет реального понимания внутренней работы LSTM» неверно, существуют ли какие-либо документы или учебные пособия, которые предоставляют более наглядное объяснение того, как обучение LSTM используется для управления различными шлюзами в его архитектуре.
Заранее большое спасибо.
Комментарии:
1. обратитесь к этому видео