首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习笔记3:动态规划 planning by dynamic programming(DP)

强化学习笔记3:动态规划 planning by dynamic programming(DP)

作者头像
列夫托尔斯昊
发布2020-08-31 14:21:05
3680
发布2020-08-31 14:21:05
举报
文章被收录于专栏:探物及理探物及理

规划,适用于MDP模型参数已知 学习,适用于Env未知或部分未知

概述

动态规划分为两步,Prediction、Control

方法:

例子

然后最简单的策略,greedy,往v值高的地方走。

Policy iteration:\(O(mn^2)\)

Value iteration:\(O(m^2n^2)\)

值迭代和policy迭代的区别

  • policy iteration每次迭代v(s)都会变大;而value iteration则不是。
  • 价值迭代不需要策略参与,依据MDP 模型,直接迭代,需要P矩阵、r 等已知
    • policy iteration: policy->value->policy
    • value iteration:value->value

Trick:

三种值迭代方法: 常规的值迭代,要遍历过所有s之后,才进行一次迭代,因此存在old、new两个v(s)

  • in-place DP:新值直接替换旧值,只存储一个v(s),
    • 异步更新,提高效率
    • 缺点:更新顺序影响收敛性
  • Prioritised sweeping:state的影响力排序
    • 比较贝尔曼误差绝对值,大的更新,小的忽略
  • Real-time DP:遍历过的才更新
    • 省去了agent 未遍历的状态s,对于稀疏任务效率提升极大
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-08-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
    • 方法:
      • 例子
      • Policy iteration:\(O(mn^2)\)
      • Value iteration:\(O(m^2n^2)\)
      • 值迭代和policy迭代的区别
      • Trick:
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档