前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习的探索策略方式

强化学习的探索策略方式

作者头像
嘘、小点声
发布2021-07-13 11:30:50
7620
发布2021-07-13 11:30:50
举报

https://blog.csdn.net/xyk_hust/article/details/86702700

1 固定值的贪婪策略

固定贪婪策略的值,使得算法整个运行过程中保持一定的探索。实现方式直接而简单,在不少情况下对收敛性的负面影响并不大,尤其是奖励常常取负值时候。

通常应用在状态空间有限的简单环境中;

2 epsilon衰减贪婪策略

2.1 初始状态下探索,然后最终使得epsilon上升,得到最终的固定贪婪值。初期的值使得算法能够有效探索。在DRL常用。

2.2 进行绕圈,一定程度下重新初始化探索

3 UCB方法

置信区间上界(Upper Confidence Bound, UCB)指导行为选择。由Hoeffding不等式推导得到

4 熵相关方法

4.1 A3C,状态下得到的行为选择值数组后,可以计算熵项目,给予一定权重添加到奖励r上,使得倾向选择最大熵对应的状态,然后衰减该权重,形成策略?

4.2 SAC?

5 其它

对于Actor-Critic架构,Actor选择行为,用DDPG的正态分布等,对sigma进行衰减类似于贪婪策略,用A2C算法的离散方式,状态可选动作下,动作数组取softmax,然后进行概率取样,属于概率方法吧。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-07-07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 固定值的贪婪策略
  • 2 epsilon衰减贪婪策略
  • 3 UCB方法
  • 4 熵相关方法
  • 5 其它
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档