Проверка изменения параметров настраиваемой политики стабильных базовых показателей

#conv-neural-network #reinforcement-learning #stable-baselines

#conv-нейронная сеть #подкрепление-обучение #стабильные-базовые показатели

Вопрос:

Я пытаюсь обучить модель обучения с подкреплением для предотвращения столкновений, используя стабильные базовые показатели. Я использую пользовательскую сеть политик. Я обучил несколько моделей, и они сошлись к стабильной награде, но кажется, что политика не зависит от ввода (пространства наблюдений), что означает, что она выполняет фиксированные действия независимо от того, какие наблюдения она получает. Мне нужно отладить эту проблему, я думаю, проверка изменения параметров сети политик может помочь. Кто-нибудь знает, как я могу устранить проблему или как я могу проверить изменение параметров пользовательской политики?