这些不可微
值函数估计:随机梯度下降法SGD
把估计函数作为一个监督学习 目标是谁呢,通过MC、TD方法,设定目标
\(\delta\) scalar number \(E_t\) 维度和s维度一致
用q函数,替代v函数
引入Gradient TD,完全满足贝尔曼方程,无差
LS定义,估计误差平方,求和
baseline是已经训练的结果\((s,v_\pi)\in D\),再用SGD更新之
找到使LS最小的权重\(w^\pi\)
注意:
构成:
平衡状态,梯度=0 求解方程,得到w值关于状态s和v真值的函数关系
However,真值不知道 缺点是复杂度高,引入了矩阵的逆