适用于:
策略、非策略学习:
贪婪策略梯度法如果用V(s),需要MDP已知 用Q(s,a),不需要已知MDP
为了避免局部最优,引入\(\epsilon\),使\(\pi\)以小概率随机选择剩余动作,避免每次都选择已知较优动作
保证试验进行一定次数是,所有a-s状态都被访问到很多次
由贝尔曼公式推导
要保证Q值收敛,需要服从下列定理
在正向视角中,迭代一次Q值,需要完整的一次episode 为了解决这个问题,每次s改变时,就能迭代一次,引入迹的概念
\[ \begin{aligned} \mathbb{E}_{X \sim P}[f(X)] &=\sum P(X) f(X) \\ &=\sum Q(X) \frac{P(X)}{Q(X)} f(X) \\ &=\mathbb{E}_{X \sim Q}\left[\frac{P(X)}{Q(X)} f(X)\right] \end{aligned} \]
利用期望分布的概念,在更新目标前x一个系数,对当前策略的置信度
更新方程如下 \[ Q\left(S_{t}, A_{t}\right) \leftarrow Q\left(S_{t}, A_{t}\right)+\alpha\left(R_{t+1}+\gamma Q\left(S_{t+1}, A^{\prime}\right)-Q\left(S_{t}, A_{t}\right)\right) \]
Q-learning target 简化为: \[ \begin{aligned} & R_{t+1}+\gamma Q\left(S_{t+1}, A^{\prime}\right) \\ =& R_{t+1}+\gamma Q\left(S_{t+1}, \underset{a^{\prime}}{\operatorname{argmax}} Q\left(S_{t+1}, a^{\prime}\right)\right) \\ =& R_{t+1}+\max _{a^{\prime}} \gamma Q\left(S_{t+1}, a^{\prime}\right) \end{aligned} \]
迭代使\(Q(s,a) \rightarrow q_* (s,a)\)