前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文阅读2-----基于强化学习的推荐系统

论文阅读2-----基于强化学习的推荐系统

原创
作者头像
邵维奇
修改2021-01-14 18:07:38
9551
修改2021-01-14 18:07:38
举报

Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation

AAAI

强化学习应用到推荐系统的三个主要问题:

1.massive state and action spaces.

特别多的状态和动作空间会造成较低的credit assignment problem and low quality reward signal.

文中的解决方法:

采用类似world model的方法去了解environment,从而更好的了解动作和状态,从而减轻massive state和massive action带来的问题。

2.High-variance environment

不想游戏中environment比较固定,推荐系统的环境更加的难以观察,并且reward来源于human更难得打分。

文中的解决方法:

把传统的state输入net得到value,文中采用先设定一个状态转移概率,在通过net得到value。这样消除了状态转移的不确定性,减轻了High-variance environment的影响。

3.unspecific reward setting in recommendation:

不像GYM中reward已经由环境设定好了,推荐系统中的reward来源于human的评分。如何通过一个设定的评分来最大化用户的满意度成为了问题。

文中的解决方法:

借鉴强化学习中的goal based RL来解决也这个问题。感觉reward有很多因素形成,那就弄很多歌goal就是。采用universial vaue function(可以学到其它goal形成的experience)

background

universial vaue function
universial vaue function

proposed approach

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation
  • background
  • proposed approach
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档