基于值函数的强化学习算法,用于解决马尔可夫决策过程(MDP)问题。
使用神经网络来估计Q值函数,对于高维、连续状态空间的问题具有良好的应用效果。
直接优化策略函数,不需要估计值函数。通常采用梯度上升法更新策略参数。
将值函数和策略函数结合起来,一方面估计状态-动作值函数,另一方面优化策略函数。
一种连续动作空间的强化学习算法,使用Actor-Critic框架,同时使用神经网络对状态-动作值函数和策略函数进行估计。
使用一种基于Kullback-Leibler(KL)散度的约束来限制策略函数的更新范围,避免更新过大导致性能下降。
一种基于TRPO的改进算法,通过对策略更新的裁剪来实现约束,可以更有效地更新策略函数。