MDP о принятии решения на Python

#python-3.x #reinforcement-learning #markov-decision-process

Вопрос:

Я горю желанием применить марковский процесс принятия решений по следующим вопросам:

В сталеплавильном цехе металлургического завода используются железные трубы. Эти трубы со временем вызывают ржавчину. Добавление антиржавейного раствора может задержать процесс коррозии. Если слишком много ржавчины, мы должны механически очистить трубу.

Я классифицировал ржавеющие состояния как StateA, StateB, StateC, указанные с увеличением ржавления от A до D

     StateA -> StateB -> StateC -> StateD
                 |         |         |
                 V         V         V
                Clean     Clean     Clean

Мы можем предпринять 2 возможных действия:

Никакого Технического Обслуживания
Добавление Антикоррозионного Средства

Вероятности перехода из состояния в состояние равны 0,6 без обслуживания

Вероятность перехода из состояния A в состояние B составляет 0,5 при добавлении антикоррозийного агента

Вероятность перехода из состояния A в состояние C составляет 0,7 без обслуживания

Вероятность перехода из состояния A в состояние C составляет 0,6 при добавлении антикоррозийного агента

Вероятность перехода от состояния к заявленному составляет 0,8 без обслуживания

Вероятность перехода от состояния к заявленному составляет 0,7 при использовании антикоррозийного агента

Награды за состояние 0.3, состояние 0.4, состояние 0.5, состояние 0.6, само по себе является состоянием. Награда за чистое состояние составляет 0,2

Я новичок в MDP. Было бы полезно, если бы кто-нибудь мог помочь мне принять решение о том, когда мы должны очистить MDP с помощью реализации python? Чистота в штате, Чистота в штате, Чистота в заявленном

Вопрос:

Комментарии:

Вам также может понравиться

При нажатии на изображение, которое я хочу поместить в контейнер другой страницы в flutter, как я могу этого добиться?

Почему я получаю «пустые результаты» при создании слабой гистограммы для моего тестового проекта? Как я могу это исправить?

Проблема с параллельной памятью для каждого