专栏首页嘘、小点声李宏毅的强化学习视频用于梳理翻阅(2)

李宏毅的强化学习视频用于梳理翻阅(2)

Actor-Critic算法

在之前的Policy Gradient算法中,其运行结果不够稳定的至少一条原因是:奖励项不够稳定。

下图中,蓝色实现标记的当前和随后的奖励累积和,作为评判?生成的轨迹的好坏度量,即通过累积和修正????_?。

但是,该累积和受到了策略网络?的影响很大。在相同的行为下,因为概率问题,使得最终的路径大不相同,从而导致了不同的累积和。因此,该累积和无法稳定的度量,策略网络?生成的轨迹。

在Q-learning之类的算法中,使用状态值函数V(s),选择最大的状态价值对应的行为a,或使用状态行为对Q(s,a),输出对应最大奖励r的行为a。

在该链接中有一张图如下作为参考,不知道对不对:https://zhuanlan.zhihu.com/p/26308073

在Actor-Critic算法下,对Policy Gradient做了一些修正如下:共有两处,一处Q的期望,一处V的价值。

为了计算方便和一些经验判断思考,做了两处替换:

Q网络和V网络的问题是,因为Q和V在实际操作过程中,没有足够和有效的的采样,是有偏差的估计值。使用Q-V来计算,则使得两个模型的偏差值更大。因此,将Q使用V来表示。这样的表示是严谨的吗,

其中在之前使用的是Q的期望,但是实际操作中,实现条件和表达问题,去掉了期望部分。

最终的更新公式如下:其中V表示一个网络,Critic网络。另外的策略网络?,输出行为,对应的????_?部分。

Critic网络,梯度下降,最小化目标为Q-V的部分,Actor网络,梯度上升,最大化目标函数,从而增强评价中,策略输出行为更优方向,的概率。

另外,有一些技巧是,如果是像素输入,则可共用卷积神经网络。另外,使用熵对?做正则化,使得动作输出的信息量更大,更有利于探索。

A3C算法,使用了异步方式。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • java学习与应用(5.1)--Mybatis

    mybatis框架,java持久层框架,ORM(Object Relational Mapping对象关系映射)思想实现结果集封装。 三层架构(表现层展示数据,...

    嘘、小点声
  • 关于网络手动搭建的一点补充说明

    https://www.oschina.net/question/2005056_167372

    嘘、小点声
  • C语言学习截图保存

    https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/gdb.html

    嘘、小点声
  • 三个指标, 使得开发人员迈向 "完美" 的圣殿

    2017.9.17, 深圳, Ken Fang 我们搞软件开发的, 应该要有些 “指标” 来驱使着我们自己能不断的持续改进;永远的朝着 “完美” 的圣殿前进⋯ ...

    Ken Fang 方俊贤
  • 经典面试题-Flume的Channel Selectors

    cwl_java
  • 生存分析及R包survival的Kaplan-Meier

    生存分析(Survival Analysis)是指一系列用来探究某事件发生时间的统计方法,可以用于建模许多不同的时间事件,包括生物学或非生物学领域。例如,癌症治...

    用户7585161
  • 洞见AI对抗,从频域视角看模型泛化能力

    在机器学习应用中,泛化能力是衡量机器学习模型性能的一个重要指标。其受到多种因素的影响,包括模型结构,参数,训练数据集,训练方法等。本文以全连接神经网络为例,通过...

    绿盟科技研究通讯
  • 用于解决线性代数、统计和图形问题的向量矩阵向量查询(CS DS)

    本文考虑通过向量矩阵、向量查询来学习矩阵的一般问题。这些查询为固定的向量对u,v∈Fn提供固定字段F上的uTMv值。为了激发这些查询,本文发现它们概括了许多以前...

    用户7454091
  • 2018,全新出发(全力推动实现住有所居)

            自2013年写完《系统架构师-基础到企业应用架构-分层[上篇]》后便停止写博客了,至今快5年了,现在突然想写的时候,却又发现迟迟无法下手打字,细...

    用户3347092
  • 三只松鼠2020新财报:利润下滑都是疫情的锅?

    在某个午后,甲方的“五彩斑斓黑”要求正让你焦头烂额生无可恋,而这时,手边有一份可口零食能够帮你脱离苦海暂时快乐,岂不是美滋滋?虽然在一整包零食见底后,这种快乐也...

    刘旷

扫码关注云+社区

领取腾讯云代金券