学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
需要了解强化学习的数学符号,先看看这里:
尽管可以使用第6,7章的方法,修改成为off-policy的近似方法,但是效果不好。 主要原因是:行为策略的分布和目标策略的分布不一致。
off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向:
原书这章还远远没有写完! 这章先停在这里了。