文章/答案/技术大牛

发布

社区首页 >问答首页 >降低多智能体环境中单个智能体的动作采样频率

问降低多智能体环境中单个智能体的动作采样频率
EN

Stack Overflow用户

提问于 2020-07-14 07:13:16

回答 1查看 79关注 0票数 0

我是第一次使用rllib，并试图训练一个自定义的多代理RL环境，并希望在它上面训练几个PPO代理。我需要解决的实现问题是如何改变一个特殊代理的训练，使得这个代理每X个时间步才采取一个行动。每X个时间步只调用compute_action()是最好的吗？或者，在其他步骤中，屏蔽策略选择，以便它们必须重新采样操作，直到调用No-Op？或者将输入到环境中的操作+训练批次中之前的操作修改为No-Ops？

在利用rllib的训练特性的情况下，实现这一点最简单的方法是什么？我是否需要为此创建一个自定义训练循环，或者有没有办法配置PPOTrainer来实现这一点？

谢谢

reinforcement-learning

ray

multi-agent

rllib

回答 1

Stack Overflow用户

发布于 2020-08-21 07:34:56

到目前为止，就让t:=timesteps吧。赋予特殊代理这个特性:t (mod X)，并且当t (mod X) != 0时，不要在环境中处理它的动作。这将实现以下目标：

代理实际上每X个时间步才采取行动，因为您忽略了所有其他行动
代理可以了解到，只有每X个时间步采取的行动才会影响未来的奖励

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62885714

复制

相似问题

问降低多智能体环境中单个智能体的动作采样频率
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问降低多智能体环境中单个智能体的动作采样频率EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问降低多智能体环境中单个智能体的动作采样频率
EN