首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >降低多智能体环境中单个智能体的动作采样频率

降低多智能体环境中单个智能体的动作采样频率
EN

Stack Overflow用户
提问于 2020-07-14 07:13:16
回答 1查看 79关注 0票数 0

我是第一次使用rllib,并试图训练一个自定义的多代理RL环境,并希望在它上面训练几个PPO代理。我需要解决的实现问题是如何改变一个特殊代理的训练,使得这个代理每X个时间步才采取一个行动。每X个时间步只调用compute_action()是最好的吗?或者,在其他步骤中,屏蔽策略选择,以便它们必须重新采样操作,直到调用No-Op?或者将输入到环境中的操作+训练批次中之前的操作修改为No-Ops?

在利用rllib的训练特性的情况下,实现这一点最简单的方法是什么?我是否需要为此创建一个自定义训练循环,或者有没有办法配置PPOTrainer来实现这一点?

谢谢

EN

回答 1

Stack Overflow用户

发布于 2020-08-21 07:34:56

到目前为止,就让t:=timesteps吧。赋予特殊代理这个特性:t (mod X),并且当t (mod X) != 0时,不要在环境中处理它的动作。这将实现以下目标:

  1. 代理实际上每X个时间步才采取行动,因为您忽略了所有其他行动
  2. 代理可以了解到,只有每X个时间步采取的行动才会影响未来的奖励
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62885714

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档