前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿

李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿

作者头像
嘘、小点声
发布2020-06-02 15:57:37
4030
发布2020-06-02 15:57:37
举报
文章被收录于专栏:嘘、小点声嘘、小点声

效果不太好

稀疏奖励中的好奇心

curiosity模型中,在原来DQN的基础上,建立了Network1,用于在?_?和?_?的条件下预测输出的下一个状态,与实际在MDP的一个片段上输出的,下一个状态之间求差,将差作为奖励r的一部分,以鼓励探索不同的状态。

引入了Network2,将输入的两个状态进行特征提取,通过Network2得到的? ̂_?,以? _?作为实际目标进行训练。从而能够避免虚假的状态变化了?另外,Feature Ext和Network2是同一个网络的不同结构部分么,为什么说训练Feature Ext,又说Network2?

层次形式强化学习

上层单位提供愿景,下层单位执行愿景,下层无法执行,则交给下下层。最终执行的内容返回给上层。上层修改愿景?

https://arxiv.org/abs/1805.08180

行为克隆

行为克隆的一个问题是,不是所有的行为都是有用并应该进行学习的。

另外的状态不匹配性?

逆向强化学习

逆向强化学习中,首先是专家在环境中进行交互生成了数据1,与Actor在环境中交互生成了数据2。

将数据1和数据2进行处理,处理过程中使得数据1的奖励大于数据2,得到奖励函数R。使用该奖励函数R,训练Actor。最终得到一个比较好的Actor。

逆向强化学习与GAN网络很相似。GAN通过鉴别器判断输出的好坏,通过G获得一个新的图像输出?

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-05-31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 稀疏奖励中的好奇心
  • 层次形式强化学习
  • 行为克隆
  • 逆向强化学习
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档