Обучаемые запросы для многозадачного уровня внимания

#python #tensorflow #tensor

#python #тензорный поток #тензор

Вопрос:

В настоящее время я создаю модель с многоголовым уровнем внимания, для которой я хотел бы использовать tf.keras.слои.Уровень многозадачности, который уже доступен.

Моя проблема в том, что запросы необходимо вводить в качестве входных данных для слоя, но я хотел бы их обучить, поэтому мне в основном нужна обучаемая константа в качестве входных данных для слоя. Я смог получить эту константу, реализовав пользовательский слой, который просто возвращает матрицу весов, но тогда тензор не имеет размерности пакета, так что есть несоответствие, если я передам его в качестве входных данных для многоголовочного внимания.

Как я могу создать такую переменную для обучения запросов для внимания с несколькими головками?

Спасибо за вашу помощь!

Комментарии:

1. Разве вы не можете просто предоставить вектор и позволить ему транслироваться?

2. Спасибо, это сработало! Я не знал о функции broadcast_to, и другие попытки с различными функциями ранее завершались неудачей.

3. Я тоже, я парень из PyTorch 😉

4. @MarcFelix Добро пожаловать в SO! кажется, вы нашли ответ на свой собственный вопрос. Не стесняйтесь писать и добавлять свой ответ, это может помочь другим с подобным запросом.