MDP о принятии решения на Python

#python-3.x #reinforcement-learning #markov-decision-process

Вопрос:

Я горю желанием применить марковский процесс принятия решений по следующим вопросам:

В сталеплавильном цехе металлургического завода используются железные трубы. Эти трубы со временем вызывают ржавчину. Добавление антиржавейного раствора может задержать процесс коррозии. Если слишком много ржавчины, мы должны механически очистить трубу.

Я классифицировал ржавеющие состояния как StateA, StateB, StateC, указанные с увеличением ржавления от A до D

     StateA -> StateB -> StateC -> StateD
                 |         |         |
                 V         V         V
                Clean     Clean     Clean
          
 

Мы можем предпринять 2 возможных действия:

  • Никакого Технического Обслуживания
  • Добавление Антикоррозионного Средства

Вероятности перехода из состояния в состояние равны 0,6 без обслуживания

Вероятность перехода из состояния A в состояние B составляет 0,5 при добавлении антикоррозийного агента

Вероятность перехода из состояния A в состояние C составляет 0,7 без обслуживания

Вероятность перехода из состояния A в состояние C составляет 0,6 при добавлении антикоррозийного агента

Вероятность перехода от состояния к заявленному составляет 0,8 без обслуживания

Вероятность перехода от состояния к заявленному составляет 0,7 при использовании антикоррозийного агента

Награды за состояние 0.3, состояние 0.4, состояние 0.5, состояние 0.6, само по себе является состоянием. Награда за чистое состояние составляет 0,2

Я новичок в MDP. Было бы полезно, если бы кто-нибудь мог помочь мне принять решение о том, когда мы должны очистить MDP с помощью реализации python? Чистота в штате, Чистота в штате, Чистота в заявленном

Комментарии:

1. Вопрос относится к ai.stackexchange.com/