发布于 2019-08-02 15:41:40
是的,在多智能体游戏中可以使用OpenAI健身环境.尽管在多代理环境下的OpenAI健身房社区没有标准化的接口中,构建一个支持这一点的OpenAI健身房是非常容易的。例如,在OpenAI关于多agent粒子环境的近期工作中,继承自gym.Env的他们创造了一个多agent环境。采用以下形式:
class MultiAgentEnv(gym.Env):
def step(self, action_n):
obs_n = list()
reward_n = list()
done_n = list()
info_n = {'n': []}
# ...
return obs_n, reward_n, done_n, info_n我们可以看到,step函数接受一个操作列表(每个代理一个),并返回一个观察列表、奖励列表、dones列表,同时将环境向前推进。这个接口是马尔可夫博弈的代表,在这个接口中,所有的代理同时采取行动,并且每个人都观察自己的后续观察、奖励。
然而,这种马尔可夫博弈接口并不适用于所有的多智能体环境.特别是,基于转盘的游戏(如纸牌游戏)可能更好地转换为交替的马尔可夫博弈,在这种游戏中,代理一次轮流(即动作)一次。对于这种环境,您可能需要包含哪一个代理处于状态表示中,然后步骤函数只需采取单个操作,并返回一个观察、奖励和完成。
发布于 2017-11-04 10:55:38
OpenAI团队已经实现了一种多agent深确定性策略梯度MADDPG方法。
这是要开始的回购计划。https://github.com/openai/multiagent-particle-envs
发布于 2017-11-18 13:16:56
强化学习这里有一个特定的多agent环境.它支持用任何编程语言编写的任意数量的代理。一个例子游戏已经实现,这恰好是一个纸牌游戏。
https://stackoverflow.com/questions/44369938
复制相似问题