论文 Temporal Difference Models: Model-Free Deep RL for Model-Based Control 上面中文介绍有论文和代码地址。
提供一种机制来逐步提高我们规划的抽象程度。为此,我们引入了时间差分模型。
知道如何达到目标;动作预测,动作序列的预测;物理环境的理解
分段reward 最高
也有her扩展
本文分享自 CreateAMind 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!