强化学习读书笔记 - 10 - on-policy控制的近似方法

强化学习读书笔记 - 10 - on-policy控制的近似方法

学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

需要了解强化学习的数学符号,先看看这里:

on-policy控制的近似方法

近似控制方法(Control Methods)是求策略的行动状态价值\(q_{\pi}(s, a)\)的近似值\(\hat{q}(s, a, \theta)\)。

半梯度递减的控制Sarsa方法 (Episodic Semi-gradient Sarsa for Control)

多步半梯度递减的控制Sarsa方法 (n-step Semi-gradient Sarsa for Control)

请看原书,不做拗述。

(连续性任务的)平均奖赏

由于打折率(\gamma, the discounting rate)在近似计算中存在一些问题(说是下一章说明问题是什么)。 因此,在连续性任务中引进了平均奖赏(Average Reward) \eta (\pi): \begin{align} \eta(\pi) & \doteq \lim_{T \to \infty} \frac{1}{T} \sum_{t=1}{T} \mathbb{E} [R_t | A_{0:t-1} \sim \pi] \\ & = \lim_{t \to \infty} \mathbb{E} [R_t | A_{0:t-1} \sim \pi] \\ & = \sum_s d_{\pi}(s) \sum_a \pi(a|s) \sum_{s',r} p(s,r'|s,a)r \end{align}

  • 目标回报(= 原奖赏 - 平均奖赏) G_t \doteq R_{t+1} - \eta(\pi) + R_{t+2} - \eta(\pi) + \cdots
  • 策略价值 v_{\pi}(s) = \sum_{a} \pi(a|s) \sum_{r,s'} p(s',r|s,a)[r - \eta(\pi) + v_{\pi}(s')] \\ q_{\pi}(s,a) = \sum_{r,s'} p(s',r|s,a)[r - \eta(\pi) + \sum_{a'} \pi(a'|s') q_{\pi}(s',a')] \\
  • 策略最优价值 v_{*}(s) = \underset{a}{max} \sum_{r,s'} p(s',r|s,a)[r - \eta(\pi) + v_{*}(s')] \\ q_{*}(s,a) = \sum_{r,s'} p(s',r|s,a)[r - \eta(\pi) + \underset{a'}{max} \ q_{*}(s',a')] \\
  • 时序差分误差 \delta_t \doteq R_{t+1} - \bar{R} + \hat{v}(S_{t+1},\theta) - \hat{v}(S_{t},\theta) \\ \delta_t \doteq R_{t+1} - \bar{R} + \hat{q}(S_{t+1},A_t,\theta) - \hat{q}(S_{t},A_t,\theta) \\ where \\ \bar{R} \text{ - is an estimate of the average reward } \eta(\pi)
  • 半梯度递减Sarsa的平均奖赏版 \theta_{t+1} \doteq \theta_t + \alpha \delta_t \nabla \hat{q}(S_{t},A_t,\theta)

半梯度递减Sarsa的平均奖赏版(for continuing tasks)

多步半梯度递减的控制Sarsa方法 - 平均奖赏版(for continuing tasks)

请看原书,不做拗述。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

教程 | 通过PyTorch实现对抗自编码器

选自Paperspace Blog 作者:Felipe 机器之心编译 参与:Jane W、黄小天 「大多数人类和动物学习是无监督学习。如果智能是一块蛋糕,无监督...

44960
来自专栏绿巨人专栏

强化学习读书笔记 - 00 - 术语和数学符号

434110
来自专栏老秦求学

[图片生成]使用VAEs生成新图片

从隐图像空间进行采样以创建全新的图像或编辑现有图像是目前创作AI最受欢迎和最成功的应用方式。

11910
来自专栏大数据挖掘DT机器学习

【机器学习】迭代决策树GBRT

一、决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策...

34960
来自专栏机器之心

NAACL2018 | 杰出论文:RNN作为识别器,判定加权语言一致性

选自arXiv 机器之心编译 参与:Pedro、刘晓坤 4月11日,NAACL 2018公布了四篇杰出论文,分别关注于词表征、语句映射、文本生成和RNN。机器之...

28850
来自专栏小小挖掘机

论文笔记系列(一)-Seq2Seq与RL的结合综述!

这篇论文是一篇综述性质的文章吧,研究了现有的Seq2Seq模型的应用和不足,以及如何通过不同的强化学习方法解决不足,写的深入具体,mark一下。

22550
来自专栏机器学习算法工程师

机器学习之——自动求导

作者:叶虎 小编:张欢 随机梯度下降法(SGD)是训练深度学习模型最常用的优化方法。在前期文章中我们讲了梯度是如何计算的,主要采用BP算法,或者说利用链式法则...

34780
来自专栏AI2ML人工智能to机器学习

收敛率概述 (Overview of Rates of Convergence)

在算法优化过程中经常会遇到收敛(Convergence)问题, 尤其目前的深度学习盛行, 如何设计更高效的收敛算法, 是个极大的挑战。

18050
来自专栏北京马哥教育

Python数据挖掘 | 实战案例之预测糖尿病

豌豆贴心提醒,本文阅读时间7分钟 今天给大家讲解一个实战案例:如何根据现有数据预测糖尿病。在这个案例开始之前,希望大家回忆一下大学里讲过的线性回归的知识,...

58790
来自专栏目标检测和深度学习

Hinton向量学院推出神经ODE:超越ResNet 4大性能优势

【导读】Hinton创建的向量学院的研究者提出了一类新的神经网络模型,神经常微分方程(Neural ODE),将神经网络与常微分方程结合在一起,用ODE来做预测...

22930

扫码关注云+社区

领取腾讯云代金券