前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ϵ-greedy Policies

ϵ-greedy Policies

作者头像
Steve Wang
发布2019-10-28 16:26:54
9170
发布2019-10-28 16:26:54
举报
文章被收录于专栏:从流域到海域

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/Solo95/article/details/102751088

ϵ\epsilonϵ-greedy Policies

非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。实际上就是随机和贪心相结合。

实际上这个策略在论文里一般一句话就可以概括:ϵ\epsilonϵ-greedy policy that selects a random action with probability ϵ\epsilonϵ(不准确) or otherwise follows the greedy policy a=argmaxaQπ(s,a)a = \mathop{argmax}\limits_{a}Q^\pi(s,a)a=aargmax​Qπ(s,a)

  • 简单的去平衡探索和利用的思想
  • 记∣A∣|A|∣A∣是所有可能的动作的数量
  • 那么针对state-action的价值Qπ(s,a)Q^\pi(s,a)Qπ(s,a)的ϵ\epsilonϵ-greedy策略是: π(a∣s)={argmaxaQπ(s,a)with probability 1−ϵawith probability ϵ∣A∣ \pi(a|s) = \begin{cases} \mathop{argmax}\limits_{a}Q^\pi(s,a) \quad with \ probability \ 1-\epsilon \\ a \qquad \qquad \qquad \qquad with \ probability \ \frac{\epsilon}{|A|} \end{cases} π(a∣s)=⎩⎨⎧​aargmax​Qπ(s,a)with probability 1−ϵawith probability ∣A∣ϵ​​

这是一个非常简单的策略,但好的地方在它够用了。

下面是它有效的证明。

证明ϵ\epsilonϵ-greedy策略能单调提升

在这里插入图片描述
在这里插入图片描述
Greedy in the Limit of Infinite Exploration(GLIE)

GLIE的定义

  • 所有的state-action对都是无限次的被访问即 limi→∞Ni(s,a)→∞\mathop{lim}\limits_{i\rightarrow \infty}N_i(s,a) \rightarrow \inftyi→∞lim​Ni​(s,a)→∞
  • 那么行为策略会收敛到贪心策略 limi→∞π(a∣s)→argmax Q(s,a)withprobablity 1\mathop{lim}\limits_{i\rightarrow \infty} \pi(a|s) \rightarrow \mathop{argmax} \ Q(s,a) \quad with probablity \ 1i→∞lim​π(a∣s)→argmax Q(s,a)withprobablity 1 即百分之百收敛到贪心策略
  • 一个简单的GLIE策略是 ϵ\epsilonϵ-greedy,其中ϵ\epsilonϵ以ϵi=1i\epsilon_i = \frac{1}{i}ϵi​=i1​的比率逐渐减小到0
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/10/25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ϵ\epsilonϵ-greedy Policies
  • 证明ϵ\epsilonϵ-greedy策略能单调提升
    • Greedy in the Limit of Infinite Exploration(GLIE)
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档