前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SQN算法介绍

SQN算法介绍

作者头像
用户1908973
发布2020-05-07 16:11:14
1.8K0
发布2020-05-07 16:11:14
举报
文章被收录于专栏:CreateAMindCreateAMind

SQN是Soft Q Network的缩写,是基于Q-value的强化学习算法,"Soft"指代的是熵正规化( entropy regularization )。SQN算法在2018年就写下了,但是由于我比较懒,一直没有写论文介绍,在此简略介绍。伪代码如下:

SQN的policy为Q-value的Softmax形式,是算法的策略改进(policy improvement )部分,Q-value 的更新为值估计(value estimation)部分。两部分交替进行提升Q值以及策略。

上图为Q backup,我们提出三种形式:Value,Q,以及MaxQ。三种形式都经过了我们的实验验证。第二项为policy的动作熵,也是算法的核心。熵正规化的含义即:在获得最多奖励的同时让动作尽可能地随机,因此对agent的探索有重要作用。

强化学习中 explore-exploit trade-off 是个永恒的难题。在DQN算法中,需要人为地加一个衰减的探索因子,训练才能进行。而SQN通过Softmax中的alpha,可以自动平衡explore-exploit,相比DQN,SQN对explore-exploit的处理要优雅得多。当然,效果也好得多。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档