#reinforcement-learning #openai-gym
Вопрос:
У меня есть кортеж кортежей в качестве пространства моих наблюдений, в котором каждый элемент соответствует действию для этого пространства.
Подумайте о длинной панели с кнопкой, которая может иметь несколько дискретных значений, и я могу переключить любое из них. Если на панели 10 элементов, то мои области действий
self.action_space = пробелы.Дискретный(10)
Что я хочу сделать, так это упростить свое пространство наблюдения таким образом, чтобы я мог предоставить свой список дискретных значений. Как мне это определить?
PS: мое пространство наблюдения в настоящее время представляет собой список из 10 значений (категориальных), каждое из которых отличается в своем пространстве. например, первое может принимать только A и B, второе может принимать только C и D и так далее.