我是第一次使用rllib,并试图训练一个自定义的多代理RL环境,并希望在它上面训练几个PPO代理。我需要解决的实现问题是如何改变一个特殊代理的训练,使得这个代理每X个时间步才采取一个行动。每X个时间步只调用compute_action()是最好的吗?或者,在其他步骤中,屏蔽策略选择,以便它们必须重新采样操作,直到调用No-Op?或者将输入到环境中的操作+训练批次中之前的操作修改为No-Ops?
在利用rllib的训练特性的情况下,实现这一点最简单的方法是什么?我是否需要为此创建一个自定义训练循环,或者有没有办法配置PPOTrainer来实现这一点?
谢谢
发布于 2020-08-21 07:34:56
到目前为止,就让t:=timesteps吧。赋予特殊代理这个特性:t (mod X),并且当t (mod X) != 0时,不要在环境中处理它的动作。这将实现以下目标:
https://stackoverflow.com/questions/62885714
复制相似问题