Кодирование пространства наблюдения с использованием списка значений (открытый тренажерный зал)

#reinforcement-learning #openai-gym

Вопрос:

У меня есть кортеж кортежей в качестве пространства моих наблюдений, в котором каждый элемент соответствует действию для этого пространства.

Подумайте о длинной панели с кнопкой, которая может иметь несколько дискретных значений, и я могу переключить любое из них. Если на панели 10 элементов, то мои области действий

self.action_space = пробелы.Дискретный(10)

Что я хочу сделать, так это упростить свое пространство наблюдения таким образом, чтобы я мог предоставить свой список дискретных значений. Как мне это определить?

PS: мое пространство наблюдения в настоящее время представляет собой список из 10 значений (категориальных), каждое из которых отличается в своем пространстве. например, первое может принимать только A и B, второе может принимать только C и D и так далее.

Ответ №1: