目录
简介
行为价值函数的重要性
-贪婪策略
现时策略蒙特卡洛控制
现时策略时序差分控制
离线策略学习
编程实践(蒙特卡洛学习求二十一点游戏最优策略)
编程实践(构建基于gym的有风格子世界,个体以及交互...,那么自然就比较容易从中选出一个最优价值对应的行为了.实践证明,在不基于模型的强化学习问题中,确定状态行为对的价值要容易得多.简化过程如下图所示:
?...-贪婪策略
在不基于模型,基于采样的蒙特卡洛或时序差分学习中使用贪婪算法通常不能收敛至最优策略.虽然DP,MT,TD算法都采用通过后续状态价值回溯的办法确定当前状态价值,但动态规划算法是考虑了一个状态后续所有状态价值的...在实际应用中,
的取值可不局限于取
,只要符合GLIE特性的设计均可以收敛至最优策略(价值)
现时策略时序差分控制
通过上一章关于预测的学习,我们体会到时序差分(TD)学习相比蒙特卡洛(MC)学习有很多优点...编程实践:构建基于gym的有风格子世界及个体
强化学习讲究个体与环境的交互,强化学习算法聚焦于如何提高个体在与环境交互中的智能水平,我们在进行编程实践时需要实现这些算法.为了验证这些算法的有效性,我们需要有相应的环境