前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >代码: 如何教强化学习模型骑自行车去金门大桥?model-base model-free 整合

代码: 如何教强化学习模型骑自行车去金门大桥?model-base model-free 整合

作者头像
CreateAMind
发布2018-07-20 16:49:46
2940
发布2018-07-20 16:49:46
举报
文章被收录于专栏:CreateAMind

UC伯克利ICLR论文:论如何教强化学习模型骑自行车去金门大桥?

论文 Temporal Difference Models: Model-Free Deep RL for Model-Based Control 上面中文介绍有论文和代码地址。

提供一种机制来逐步提高我们规划的抽象程度。为此,我们引入了时间差分模型。

知道如何达到目标;动作预测,动作序列的预测;物理环境的理解

分段reward 最高

也有her扩展

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • UC伯克利ICLR论文:论如何教强化学习模型骑自行车去金门大桥?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档