在深度强化学习中,使用连续的动作空间,为什么在智能体执行之前夹住动作似乎是一种常见的做法?
示例:
OpenAI健身房山地车https://github.com/openai/gym/blob/master/gym/envs/classic_control/continuous_mountain_car.py#L57
信息丢失不是这样做的吗?例如,如果模型输出速度为+10 (移动),然后将其钳制为+1,则动作本身的行为相当离散(仅与其执行有关)。对于细粒度的移动,将输出乘以0.1不是更有意义吗?
发布于 2018-01-01 18:56:19
这样做可能只是为了对代理可以做的事情施加约束。也许智能体想要执行一个动作,将速度提高1,000,000。但如果智能体是一辆引擎较弱的自动驾驶汽车,最多只能加速1个单位,我们并不关心智能体是否会假设想要加速更多单位。这辆车的引擎能力有限。
https://stackoverflow.com/questions/48046656
复制相似问题