Интуиция, лежащая во внутренней работе сети LSTM

#python #lstm #recurrent-neural-network

#python #lstm #рекуррентная нейронная сеть

Вопрос:

Я пытаюсь найти интуитивное объяснение работы LSTM RNN. Я нашел много статей и руководств, которые описывают архитектуру и уравнения для работы LSTM, а также ряд «размашистых» описаний того, как элементы управления могут добавлять или забывать элементы, хранящиеся в «памяти ячейки». То, что я надеялся найти, было четким описанием того, как сеть обучается способом, который иллюстрирует, как можно управлять различными шлюзами.

Чтобы задать правильный вопрос, приведу две цитаты из двух источников, в которых используются фразы, которые только усиливают мое замешательство, поэтому, если позволите, я сделаю небольшое отступление, чтобы описать их, а затем задам вопросы, которые меня озадачивают.

В первом примере, который представляет собой отличное и хорошо цитируемое эссе о работе LSTM (смотрите здесь), есть абзац, который гласит:

«Давайте вернемся к нашему примеру языковой модели, пытающейся предсказать следующее слово на основе всех предыдущих. В такой задаче состояние ячейки может включать пол текущего субъекта, чтобы можно было использовать правильные местоимения. Когда мы видим нового субъекта, мы хотим забыть пол старого субъекта.»

И во втором примере из не менее хорошей статьи (ссылки ), исследующей внутренние операции сети LSTM, есть предложение:

«LSTM предположительно мог бы хранить сводку ранее просмотренных символов в данных и использовать эту память, когда она неопределенна».

Итак, мои вопросы, относящиеся к этим двум примерам, заключаются в следующем.

Во-первых, что касается первого примера, это подразумевает, что LSTM знает о субъекте и что у субъекта есть пол, так что при появлении нового субъекта пол должен измениться. Итак, вопрос в том, как сеть может быть осведомлена о том, что такое объект, что у него есть пол и что объект изменился. Это что-то, что вводится на этапе обучения?

Во втором примере кажется, что работа сети в лучшем случае непрозрачна (что, как я принимаю, было частью цели этой статьи объяснить некоторые из этих неизвестных). Итак, мои вторые вопросы: является ли стремление понять внутреннюю работу LSTM бессмысленной задачей и просто полагаться на объяснения его работы, «размахивающие руками»?

И мой последний вопрос, если утверждение «Нет реального понимания внутренней работы LSTM» неверно, существуют ли какие-либо документы или учебные пособия, которые предоставляют более наглядное объяснение того, как обучение LSTM используется для управления различными шлюзами в его архитектуре.

Заранее большое спасибо.

Комментарии:

1. обратитесь к этому видео