专栏首页嘘、小点声李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿

李宏毅的强化学习视频用于梳理翻阅(4)奖励、模仿

效果不太好

稀疏奖励中的好奇心

curiosity模型中,在原来DQN的基础上,建立了Network1,用于在?_?和?_?的条件下预测输出的下一个状态,与实际在MDP的一个片段上输出的,下一个状态之间求差,将差作为奖励r的一部分,以鼓励探索不同的状态。

引入了Network2,将输入的两个状态进行特征提取,通过Network2得到的? ̂_?,以? _?作为实际目标进行训练。从而能够避免虚假的状态变化了?另外,Feature Ext和Network2是同一个网络的不同结构部分么,为什么说训练Feature Ext,又说Network2?

层次形式强化学习

上层单位提供愿景,下层单位执行愿景,下层无法执行,则交给下下层。最终执行的内容返回给上层。上层修改愿景?

https://arxiv.org/abs/1805.08180

行为克隆

行为克隆的一个问题是,不是所有的行为都是有用并应该进行学习的。

另外的状态不匹配性?

逆向强化学习

逆向强化学习中,首先是专家在环境中进行交互生成了数据1,与Actor在环境中交互生成了数据2。

将数据1和数据2进行处理,处理过程中使得数据1的奖励大于数据2,得到奖励函数R。使用该奖励函数R,训练Actor。最终得到一个比较好的Actor。

逆向强化学习与GAN网络很相似。GAN通过鉴别器判断输出的好坏,通过G获得一个新的图像输出?

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Latex使用记事(1)

    特殊符号的表示需要使用转义方式,但是\\表示的是换行而不是\。需要则使用$\backslash$表示。

    嘘、小点声
  • edgeXFoundry中modbus通信部署和测试(待续)

    modbus协议分为基于tcp/ip的modbus tcp和和基于RS485接口的modbus rtu两种通信方式。

    嘘、小点声
  • java学习与应用(4.6)--过滤器、监听器、JQuery、AJAX、JSON等

    Filter过滤器:客户端在请求服务器资源前和返回响应,会通过过滤器,以拦截请求完成特殊功能。登录校验、统一编码校验等一些通用操作放置到过滤器。 定义类实现接口...

    嘘、小点声
  • 南方周末:超越人类的终极人工智能算法将会来临?

    【新智元导读】从尼采说上帝死了,到现在尤瓦尔·赫拉利重新把AI推到技术上帝的位置,不过一百多年时间。人类自己充当上帝角色,即使从达尔文出版《进化论》开始算,不到...

    新智元
  • 全程剖析Western blot原理,你才能掌控它

    最近,有人在后台私信小编,说他(她)的朋友最近被WB烦的不行,希望能够出几期实验相关教程,解答他们在WB中遇到的难题。

    百味科研芝士
  • 【标志物专栏】细胞膜标志蛋白质

    【细胞膜是磷脂双分子层结构,这个大家都知道。医学研究中,大家一般不会特定地研究细胞膜,然而我们关注的很多重要蛋白都分布在细胞膜上,有时疾病状态下,这些蛋白的表达...

    Mark Chen
  • SDDPG = SAC1

    在上文指出:“基于policy optimization的强化学习算法的数学基础都是policy gradient 定理(PGT),比如PG, A2C, A3C...

    用户1908973
  • IBM响起倒闭声潮

    讨论这个问题之前,有必要先说明一下。这个问题很多时候是站队的问题而不是讨论的问题,尤其是在网上。一旦说IBM这样的大公司会倒闭,必然有拥趸跳出来骂,凭什么说IB...

    人称T客
  • IBM吹响倒闭倒计时的号角?

    讨论这个问题之前,有必要先说明一下。这个问题很多时候是站队的问题而不是讨论的问题,尤其是在网上。一旦说IBM这样的大公司会倒闭,必然有拥趸跳出来骂,凭什么说IB...

    人称T客
  • 精益的新产品启动与技术创业(上)| TW洞见

    今日洞见 文章作者、部分图片来自ThoughtWorks:张思楚。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体...

    ThoughtWorks

扫码关注云+社区

领取腾讯云代金券