前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Monte Carlo Off Policy Evaluation

Monte Carlo Off Policy Evaluation

作者头像
Steve Wang
发布2019-10-24 23:24:22
7730
发布2019-10-24 23:24:22
举报
文章被收录于专栏:从流域到海域从流域到海域

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/Solo95/article/details/102672689

前面的一篇博文Monte Carlo(MC) Policy Evaluation 蒙特·卡罗尔策略评估 介绍的是On-Policy的策略评估。简而言之,On-Policy就是说做评估的时候就是在目标策略本身上做的评估,而Off-Policy指的是在别的策略上对目标策略做评估。

MC Off-Policy Evaluation

在这里插入图片描述
在这里插入图片描述
  • 在某些领域(例如图示)尝试采取动作观察结果代价很大或者风险很高
  • 因此我们希望能够根据以前的关于策略决策的旧数据和已有与之相关的结果来评估一个替代策略可能的价值

Monte Carlo(MC) Off Policy Evaluation

  • 目标:在给定由行为策略π2\pi_2π2​产生的轮次(episodes)下,评估策略π1\pi_1π1​的价值Vπ(s)V^\pi(s)Vπ(s)
    • s1,a1,r1,s2,a2,r2,....s_1,a_1,r_1,s_2,a_2,r_2,....s1​,a1​,r1​,s2​,a2​,r2​,....其中的action是由π2\pi_2π2​采样而来
  • MDP模型M在策略π\piπ下产生的收益为Gt=rt+γrt+1+γ2rt+2+γ3rt+3+....G_t=r_t+\gamma r_{t+1} + \gamma^2r_{t+2}+\gamma^3r_{t+3}+....Gt​=rt​+γrt+1​+γ2rt+2​+γ3rt+3​+....
  • 价值函数为Vπ(s)=Eπ[Gt∣st=s]V^\pi(s)=\mathbb{E}_\pi[G_t|s_t = s]Vπ(s)=Eπ​[Gt​∣st​=s]
  • 有不同的策略,记为策略π2\pi_2π2​的数据
  • 如果π2\pi_2π2​是随机的,那么通常可以使用它来评估一个不同的策略的价值(这是通常情况下遵循的一般原则)
  • 再次强调,不需要有模型,也不必要求状态必须是马尔科夫的。
在这里插入图片描述
在这里插入图片描述

如图,该方法可能面临着已有的行为策略和新的行为策略分布相差巨大的缺点,这点需要注意。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-10-21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MC Off-Policy Evaluation
  • Monte Carlo(MC) Off Policy Evaluation
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档