Как бы вы подошли к этой проблеме обучения с подкреплением с использованием нескольких агентов?

#reinforcement-learning #multi-agent

Вопрос:

Привет, я ищу алгоритм подкрепления с несколькими агентами, который включает распределение конечных ресурсов в выбор действий. В простейшем случае два агента должны научиться координировать свои действия, чтобы выбрать совместное действие, которое принесет наибольшее вознаграждение, оставаясь при этом в пределах лимита расходов.

Проблема, с которой я сталкиваюсь в традиционных реализациях RL с несколькими агентами, заключается в том, что агентам обычно предоставляются независимые наблюдения и они делают свой выбор одновременно.

Однако в этом случае наблюдение второго агента напрямую зависит от того, сколько денег тратит первый агент.

Допустим, у нас есть 10 долларов, которые мы можем потратить на еду в продуктовом магазине, с заранее определенной таблицей затрат/стоимости для каждого продукта. Если Агент 1 тратит 9 долларов, Агент 2 может выбирать только продукты, которые стоят 1 доллар. Агент 1 и Агент 2 должны работать вместе, чтобы найти оптимальный компромисс, чтобы их суммарная награда была максимальной. Как бы вы подошли к этому с точки зрения RL.

Я думаю, что Агент 1 должен был бы каким-то образом учитывать не только немедленную эгоистичную награду, которую он получает за выбор хорошего действия, но и качество оставшегося состояния, оставшегося для Агента 2. Ему нужно было бы уметь отличать эгоистичное хорошее действие, которое привело к плохому результату, от общего плохого действия (еда, которая имеет небольшую ценность).