专栏首页数据魔术师强化学习读书笔记(16)| 策略梯度法 Policy Gradient Methods(上)

强化学习读书笔记(16)| 策略梯度法 Policy Gradient Methods(上)

前言

策略近似及其优点

Policy Approximation and its Advantages

策略梯度理论

The Policy Gradient Theorem

REINFORCE:蒙特卡洛策略梯度

Monte Carlo Policy Gradient

实战演练

short-corridor gridworld

代码编写

小结

作为一个随机梯度方法,REINFORCE法有一个良好的理论收敛性质。通过构造可以使得期望更新的方向和评估函数梯度方向一致,这就保证了对于足够小的参数α,算法一定能够收敛到一个局部最优,但是MC形式的REINFORCE方法会带来较大的方差和较慢的学习速度。

本文分享自微信公众号 - 数据魔术师(data-magician),作者:老薛带你学Python

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 星座数据说 | 金牛最浪双鱼最富,摩羯男最爱姐弟恋

    用户1621951
  • 数模竞赛|如何更有把握获得国/美赛一等奖(下篇)

    作者介绍:苗枫,华中科技大学管理学院18级博士研究生,本科时全国大学生数学建模国赛一等奖,并多次带队获得美国数学建模竞赛一等奖

    用户1621951
  • 干货 | 求解VRPTW松弛模型的Column Generation算法的JAVA代码分享

    经过小编的不断努力和修正,Column Generation + ESPPRC+ pulse algorithm的内容终于写完了。此过程真是充满曲折啊,希望大家...

    用户1621951
  • python笔记23-unittest单元测试之mock

    unittest.mock是一个用于在Python中进行单元测试的库,Mock翻译过来就是模拟的意思,顾名思义这个库的主要功能是模拟一些东西。 它的主要功能是使...

    上海-悠悠
  • 云计算成本的7个秘密

    虽然医疗保险和房租账单可能会促使企业压缩预算,但由于价格十分低廉,企业将会采用更多的云计算服务。然而到了月底,云计算账单比用户预期多得多,并且可能会对云计算服务...

    静一
  • P1080 国王游戏

    题目描述 恰逢 H 国国庆,国王邀请 n 位大臣来玩一个有奖游戏。首先,他让每个大臣在左、右手上面分别写下一个整数,国王自己也在左、右手上各写一个整数。然后,让...

    attack
  • 未来的无人驾驶半挂卡车长这样;《侠盗猎车手5》测试无人驾驶

    未来的无人驾驶半挂卡车长这样 Google、福特及苹果等公司都已加入了无人驾驶汽车研发行列,而运输公司正在耐心等待自己的革命。例如现在瑞典运输公司Einride...

    机器人网
  • Linux命令之Service —— 管理系统服务

    service命令用于对系统服务进行管理,比如启动(start)、停止(stop)、重启(restart)、查看状态(status)等。相关的命令还包括chkc...

    浩Coding
  • MXNet 宣布支持 Keras 2,可更加方便快捷地实现 CNN 及 RNN 分布式训练

    AI 研习社按,近期,AWS 表示 MXNet 支持 Keras 2,开发者可以使用 Keras-MXNet 更加方便快捷地实现 CNN 及 RNN 分布式训练...

    AI研习社
  • 业界 | MXNet开放支持Keras,高效实现CNN与RNN的分布式训练

    机器之心

扫码关注云+社区

领取腾讯云代金券