#python-3.x #openai-gym
#python-3.x #openai-тренажерный зал
Вопрос:
Я пытаюсь создать пользовательскую среду для OpenAI Gym.
Мое пространство наблюдения будет иметь некоторые значения, такие как следующие:
- показания: 10x от -1 до 1 непрерывные
- количество: от 0 до 1000 дискретных
- включение / выключение: 0 или 1 дискретный
Из документов кажется, что я могу создать поле с некоторыми низкими и высокими значениями или дискретными значениями или кортежами.
Итак, если я создам поле с этими 12 элементами (10 непрерывных, 2 дискретных) и определю его как float32, будет ли это работать? или есть лучший способ?
Я попытался определить его как пространство Dict, но, похоже, это только для GoalEnv и имеет очень специфический набор ключей.
Комментарии:
1. Вы решили это?
2. @Rexcirus не к моему удовлетворению. В конце я использовал поле со всеми плавающими значениями. Это сработало. В настоящее время использование нескольких типов и кортежей представляется невозможным.
3. Я тоже хотел это сделать, но, похоже, это все еще является предметом продолжающихся исследований (я нашел эту статью, в которой предпринимается попытка объединить дискретные и непрерывные пространства действий: arxiv.org/abs/2001.00449 ). Я предполагаю, что большая проблема будет заключаться в том, что в настоящее время нет алгоритмов (о которых я знаю), которые поддерживают пространства кортежей или Dict.