强化学习读书笔记 - 00 - 术语和数学符号

强化学习读书笔记 - 00 - 术语和数学符号

学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

基本概念

策略

\text{For continuing tasks: } \\ G_t \doteq \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \\ \text{For episodic tasks: } \\ G_t \doteq \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1} \\ v_{\pi}(s) \doteq \mathbb{E}_{\pi} [G_t | S_t=s] = \mathbb{E}_{\pi} \left [ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}|S_t = s \right ] \\ q_{\pi}(s,a) \doteq \mathbb{E}_{\pi} [G_t | S_t=s,A_t=a] = \mathbb{E}_{\pi} \left [ \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}|S_t = s, A_t=a \right ] \\ v_{\pi}(s) = \max_{a \in \mathcal{A}} q_{\pi}(s,a) \\ \pi(s) = \underset{a}{argmax} \ v_{\pi}(s' | s, a) \\ \pi(s) \text{ is the action which can get the next state which has the max value.} \\ \pi(s) = \underset{a}{argmax} \ q_{\pi}(s, a) \\ \pi(s) \text{ is the action which can get the max action value from the current state.} \\ 由上面的公式可以看出:\(\pi(s)\)可以由\(v_{\pi}(s)\)或者\(q_{\pi}(s,a)\)决定。

\text{Reinforcement Learning} \doteq \pi_* \\ \quad \updownarrow \\ \pi_* \doteq \{ \pi(s) \}, \ s \in \mathcal{S} \\ \quad \updownarrow \\ \begin{cases} \pi(s) = \underset{a}{argmax} \ v_{\pi}(s' | s, a), \ s' \in S(s), \quad \text{or} \\ \pi(s) = \underset{a}{argmax} \ q_{\pi}(s, a) \\ \end{cases} \\ \quad \updownarrow \\ \begin{cases} v_*(s), \quad \text{or} \\ q_*(s, a) \\ \end{cases} \\ \quad \updownarrow \\ \text{approximation cases:} \\ \begin{cases} \hat{v}(s, \theta) \doteq \theta^T \phi(s), \quad \text{state value function} \\ \hat{q}(s, a, \theta) \doteq \theta^T \phi(s, a), \quad \text{action value function} \\ \end{cases} \\ where \\ \theta \text{ - value function's weight vector} \\ 强化学习的目标3:找到最优价值函数v_*(s)或者q_*(s,a)

近似计算

老O虎O机问题

通用数学符号

术语

episodic tasks - 情节性任务。指(强化学习的问题)会在有限步骤下结束。 continuing tasks - 连续性任务。指(强化学习的问题)有无限步骤。 episode - 情节。指从起始状态(或者当前状态)到结束的所有步骤。 tabular method - 列表方法。指使用了数组或者表格存储每个状态(或者状态-行动)的信息(比如:其价值)。

planning method - 计划性方法。需要一个模型,在模型里,可以获得状态价值。比如: 动态规划。 learning method - 学习性方法。不需要模型,通过模拟(或者体验),来计算状态价值。比如:蒙特卡洛方法,时序差分方法。

on-policy method - on-policy方法。评估的策略和优化的策略是同一个。 off-policy method - off-policy方法。评估的策略和优化的策略不是同一个。意味着优化策略使用来自外部的样本数据。 target policy - 目标策略。off-policy方法中需要优化的策略。 behavior policy - 行为策略\(\mu\)。off-policy方法中提供样本数据的策略。 importance sampling - 行为策略\(\mu\)的样本数据。 importance sampling rate - 由于目标策略\(\pi\)和行为策略\(\mu\)不同,导致样本数据在使用上的加权值。 ordinary importance sampling - 无偏见的计算策略价值的方法。 weighted importance sampling - 有偏见的计算策略价值的方法。 MSE(mean square error) - 平均平方误差。 MDP(markov decision process) - 马尔科夫决策过程 The forward view - We decide how to update each state by looking forward to future rewards and states. 例如: G_t^{(n)} \doteq R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{n-1} R_{t+n} + \gamma^n \hat{v}(S_{t+n}, \theta_{t+n-1}) , \ 0 \le t \le T-n \\ The backward or mechanistic view - Each update depends on the current TD error combined with eligibility traces of past events. 例如: e_0 \doteq 0 \\ e_t \doteq \nabla \hat{v}(S_t, \theta_t) + \gamma \lambda e_{t-1} \\

参照

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张宏顺的专栏

机器学习在HEVC 视频编码中的实践

本文是对HEVC CU深度快速选择方法的思考和实践,将机器学习引入到编码器优化上,是个较大胆的尝试,而且从效果来看,编码速度提升显著,且压缩性能下降不多,说明该...

1.4K3
来自专栏人工智能头条

李理:从Image Caption Generation理解深度学习(part II)

2424
来自专栏目标检测和深度学习

你不得不了解的8种神经网络结构!

机器学习已经在各个行业得到了大规模的广泛应用,并为提升业务流程的效率、提高生产率做出了极大的贡献。目前机器学习主要在以下方面应用: 模式识别:实际场景中的目标、...

4148
来自专栏Jayden的专栏

机器学习的一些术语

卷积神经网络最初是用来处理多维数组数据,比如,一张由三个2D数组组成、包含三个彩色通道像素强度的彩色图像。大量的数据模式都是多个数组形式:1D用来表示信号和序列...

1600
来自专栏机器学习算法与Python学习

必须了解的8种神经网络架构

机器学习已经在各个行业得到了大规模的广泛应用,并为提升业务流程的效率、提高生产率做出了极大的贡献。目前机器学习主要在以下方面应用: 模式识别:实际场景中的目标...

3415
来自专栏深度学习自然语言处理

近期有哪些值得读的QA论文?

■ 论文 | Making Neural QA as Simple as Possible but not Simpler

1933
来自专栏机器之心

教程 | 通过PyTorch实现对抗自编码器

选自Paperspace Blog 作者:Felipe 机器之心编译 参与:Jane W、黄小天 「大多数人类和动物学习是无监督学习。如果智能是一块蛋糕,无监督...

4296
来自专栏机器之心

入门 | 从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同

选自Medium 机器之心编译 参与:刘天赐、黄小天 尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、缺乏调参...

4965
来自专栏目标检测和深度学习

Hinton向量学院推出神经ODE:超越ResNet 4大性能优势

【导读】Hinton创建的向量学院的研究者提出了一类新的神经网络模型,神经常微分方程(Neural ODE),将神经网络与常微分方程结合在一起,用ODE来做预测...

2163
来自专栏机器之心

NAACL2018 | 杰出论文:RNN作为识别器,判定加权语言一致性

选自arXiv 机器之心编译 参与:Pedro、刘晓坤 4月11日,NAACL 2018公布了四篇杰出论文,分别关注于词表征、语句映射、文本生成和RNN。机器之...

2845

扫码关注云+社区

领取腾讯云代金券