前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习笔记2:Markov decision process(MDP)

强化学习笔记2:Markov decision process(MDP)

作者头像
列夫托尔斯昊
发布2020-08-31 14:24:41
8910
发布2020-08-31 14:24:41
举报
文章被收录于专栏:探物及理探物及理

马尔科夫过程(Markov Process,MP)

我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。

马尔科夫奖励过程(Markov Reward Process,MRP)

解析解

马尔科夫决策过程(Markov Decision Process,MDP)

收获 Return

价值函数和动作值函数

贝尔曼方程

贝尔曼最优方程

求解最优方程方法

  • Value iteration
  • Policy iteration
  • Q-learning
  • Sarsa
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-08-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 马尔科夫过程(Markov Process,MP)
    • 马尔科夫奖励过程(Markov Reward Process,MRP)
      • 解析解
    • 马尔科夫决策过程(Markov Decision Process,MDP)
      • 收获 Return
      • 价值函数和动作值函数
  • 贝尔曼方程
    • 贝尔曼最优方程
      • 求解最优方程方法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档