文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么要限制连续的动作？

问为什么要限制连续的动作？
EN

Stack Overflow用户

提问于 2018-01-01 09:32:04

回答 1查看 541关注 0票数 1

在深度强化学习中，使用连续的动作空间，为什么在智能体执行之前夹住动作似乎是一种常见的做法？

示例：

信息丢失不是这样做的吗？例如，如果模型输出速度为+10 (移动)，然后将其钳制为+1，则动作本身的行为相当离散(仅与其执行有关)。对于细粒度的移动，将输出乘以0.1不是更有意义吗？

发布于 2018-01-01 18:56:19

这样做可能只是为了对代理可以做的事情施加约束。也许智能体想要执行一个动作，将速度提高1,000,000。但如果智能体是一辆引擎较弱的自动驾驶汽车，最多只能加速1个单位，我们并不关心智能体是否会假设想要加速更多单位。这辆车的引擎能力有限。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48046656

复制

相似问题

问为什么要限制连续的动作？EN