Пространство наблюдения OpenAI Gym с дискретными значениями и значениями Box

#python-3.x #openai-gym

#python-3.x #openai-тренажерный зал

Вопрос:

Я пытаюсь создать пользовательскую среду для OpenAI Gym.

Мое пространство наблюдения будет иметь некоторые значения, такие как следующие:

  • показания: 10x от -1 до 1 непрерывные
  • количество: от 0 до 1000 дискретных
  • включение / выключение: 0 или 1 дискретный

Из документов кажется, что я могу создать поле с некоторыми низкими и высокими значениями или дискретными значениями или кортежами.

Итак, если я создам поле с этими 12 элементами (10 непрерывных, 2 дискретных) и определю его как float32, будет ли это работать? или есть лучший способ?

Я попытался определить его как пространство Dict, но, похоже, это только для GoalEnv и имеет очень специфический набор ключей.

Комментарии:

1. Вы решили это?

2. @Rexcirus не к моему удовлетворению. В конце я использовал поле со всеми плавающими значениями. Это сработало. В настоящее время использование нескольких типов и кортежей представляется невозможным.

3. Я тоже хотел это сделать, но, похоже, это все еще является предметом продолжающихся исследований (я нашел эту статью, в которой предпринимается попытка объединить дискретные и непрерывные пространства действий: arxiv.org/abs/2001.00449 ). Я предполагаю, что большая проблема будет заключаться в том, что в настоящее время нет алгоритмов (о которых я знаю), которые поддерживают пространства кортежей или Dict.