规划,适用于MDP模型参数已知 学习,适用于Env未知或部分未知
动态规划分为两步,Prediction、Control
然后最简单的策略,greedy,往v值高的地方走。
三种值迭代方法: 常规的值迭代,要遍历过所有s之后,才进行一次迭代,因此存在old、new两个v(s)
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!