#python-3.x #reinforcement-learning #markov-decision-process
Вопрос:
Я горю желанием применить марковский процесс принятия решений по следующим вопросам:
В сталеплавильном цехе металлургического завода используются железные трубы. Эти трубы со временем вызывают ржавчину. Добавление антиржавейного раствора может задержать процесс коррозии. Если слишком много ржавчины, мы должны механически очистить трубу.
Я классифицировал ржавеющие состояния как StateA, StateB, StateC, указанные с увеличением ржавления от A до D
StateA -> StateB -> StateC -> StateD
| | |
V V V
Clean Clean Clean
Мы можем предпринять 2 возможных действия:
- Никакого Технического Обслуживания
- Добавление Антикоррозионного Средства
Вероятности перехода из состояния в состояние равны 0,6 без обслуживания
Вероятность перехода из состояния A в состояние B составляет 0,5 при добавлении антикоррозийного агента
Вероятность перехода из состояния A в состояние C составляет 0,7 без обслуживания
Вероятность перехода из состояния A в состояние C составляет 0,6 при добавлении антикоррозийного агента
Вероятность перехода от состояния к заявленному составляет 0,8 без обслуживания
Вероятность перехода от состояния к заявленному составляет 0,7 при использовании антикоррозийного агента
Награды за состояние 0.3, состояние 0.4, состояние 0.5, состояние 0.6, само по себе является состоянием. Награда за чистое состояние составляет 0,2
Я новичок в MDP. Было бы полезно, если бы кто-нибудь мог помочь мне принять решение о том, когда мы должны очистить MDP с помощью реализации python? Чистота в штате, Чистота в штате, Чистота в заявленном
Комментарии:
1. Вопрос относится к ai.stackexchange.com/