Почему рекуррентные нейронные сети перебирают все скрытые нейроны?

#neural-network #recurrent-neural-network

#нейронная сеть #рекуррентная нейронная сеть

Вопрос:

Я понимаю необходимость того, чтобы рекуррентные нейронные сети (RNN) имели память, и как это получается путем обратной передачи выходных данных скрытых нейронов. Но почему они не могут просто сохранить входные данные; то есть задерживать и передавать только последовательность входных данных, а не скрытые нейроны, которые являются функциями этих входных данных, и использовать это в качестве контекста?

Казалось бы, это решает многие проблемы с возвратом всего скрытого состояния (т. Е. Трудности с BPTT) и при этом сохраняет весь контекст. По определению, входные данные содержат любые данные, необходимые для вычисления контекста.

Даже если контекст является функцией входных данных, а не самих входных данных, мы все равно можем использовать это, поскольку некоторые нейроны в одном скрытом слое смогут быть функциями x(t-1) x(t-2)... входных данных. Итак, мы все еще можем вычислить все, что можем вычислить с помощью стандартного RNN, но с гораздо меньшей сложностью: некоторые нейроны будут специализироваться на x(t) , а некоторые — на x(t-n) .

Теперь, поскольку никто этого не делает, я должен представить, что они рассмотрели это и отклонили. Почему?

Ответ №1:

Посмотрите на http://www-dsi.ing.unifi.it /~paolo/ps/tnn-94-gradient.pdf Изучение долгосрочных зависимостей с градиентным спуском затруднено Бенгио и др. «Рекуррентные нейронные сети… иметь внутреннее состояние, которое может… храните информацию о прошлых входных данных в течение времени, которое не является фиксированным априори… Напротив, статические сети (т. Е. Без рекуррентного соединения), даже если они включают задержки (например, нейронные сети с временной задержкой), имеют конечный импульсный отклик и не могут хранить бит информации в течение неопределенного времени.

Итак, похоже, что схема, которую я предлагаю, называется нейронной сетью с временной задержкой от Bengio, и ее основным недостатком является то, что существует фиксированная, конечная, максимальная память. Например, нет способа реализовать накопитель (превышающий размер окна) в одном. Сравните это с истинным RNN, где возможно (хотя, возможно, трудно выучить), чтобы веса сохраняли определенную информацию бесконечно. Например, аккумулятор легко реализовать.

Вопрос:

Ответ №1:

Вам также может понравиться

Как сделать таблицу смежности

Parent() не работает из-за

Документ во вложенной коллекции немедленно удаляется после повторного появления, добавив его в коллекцию