学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
需要了解强化学习的数学符号,先看看这里:
近似控制方法(Control Methods)是求策略的行动状态价值\(q_{\pi}(s, a)\)的近似值\(\hat{q}(s, a, \theta)\)。
请看原书,不做拗述。
由于打折率(\gamma, the discounting rate)在近似计算中存在一些问题(说是下一章说明问题是什么)。 因此,在连续性任务中引进了平均奖赏(Average Reward) \eta (\pi): \begin{align} \eta(\pi) & \doteq \lim_{T \to \infty} \frac{1}{T} \sum_{t=1}{T} \mathbb{E} [R_t | A_{0:t-1} \sim \pi] \\ & = \lim_{t \to \infty} \mathbb{E} [R_t | A_{0:t-1} \sim \pi] \\ & = \sum_s d_{\pi}(s) \sum_a \pi(a|s) \sum_{s',r} p(s,r'|s,a)r \end{align}
请看原书,不做拗述。