#neural-network #recurrent-neural-network
#нейронная сеть #рекуррентная нейронная сеть
Вопрос:
Я понимаю необходимость того, чтобы рекуррентные нейронные сети (RNN) имели память, и как это получается путем обратной передачи выходных данных скрытых нейронов. Но почему они не могут просто сохранить входные данные; то есть задерживать и передавать только последовательность входных данных, а не скрытые нейроны, которые являются функциями этих входных данных, и использовать это в качестве контекста?
Казалось бы, это решает многие проблемы с возвратом всего скрытого состояния (т. Е. Трудности с BPTT) и при этом сохраняет весь контекст. По определению, входные данные содержат любые данные, необходимые для вычисления контекста.
Даже если контекст является функцией входных данных, а не самих входных данных, мы все равно можем использовать это, поскольку некоторые нейроны в одном скрытом слое смогут быть функциями x(t-1) x(t-2)...
входных данных. Итак, мы все еще можем вычислить все, что можем вычислить с помощью стандартного RNN, но с гораздо меньшей сложностью: некоторые нейроны будут специализироваться на x(t)
, а некоторые — на x(t-n)
.
Теперь, поскольку никто этого не делает, я должен представить, что они рассмотрели это и отклонили. Почему?
Ответ №1:
Посмотрите на http://www-dsi.ing.unifi.it /~paolo/ps/tnn-94-gradient.pdf Изучение долгосрочных зависимостей с градиентным спуском затруднено Бенгио и др. «Рекуррентные нейронные сети… иметь внутреннее состояние, которое может… храните информацию о прошлых входных данных в течение времени, которое не является фиксированным априори… Напротив, статические сети (т. Е. Без рекуррентного соединения), даже если они включают задержки (например, нейронные сети с временной задержкой), имеют конечный импульсный отклик и не могут хранить бит информации в течение неопределенного времени.
Итак, похоже, что схема, которую я предлагаю, называется нейронной сетью с временной задержкой от Bengio, и ее основным недостатком является то, что существует фиксированная, конечная, максимальная память. Например, нет способа реализовать накопитель (превышающий размер окна) в одном. Сравните это с истинным RNN, где возможно (хотя, возможно, трудно выучить), чтобы веса сохраняли определенную информацию бесконечно. Например, аккумулятор легко реализовать.