Понимание функциональности вознаграждения при обучении с подкреплением (atari breakout)

#reinforcement-learning #dqn #reward

#обучение с подкреплением #dqn #награда

Вопрос:

Я пытаюсь понять функциональность вознаграждения в Breakout atari, реализованную Deepmind. Я немного смущен вознаграждением. Они представляют каждое состояние с помощью четырех кадров, и в зависимости от этого вознаграждение за каждое действие будет получено через четыре кадра. Мой вопрос в том, что, если мяч застрял, где он получает много наград, как определить, что то же действие, которое вознаграждается, является причиной этого большего вознаграждения?

Случай, о котором я говорю:

введите описание изображения здесь