前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。
Xie R, Zhang S, Wang R, et al. Hierarchical reinforcement learning for integrated recommendation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(5): 4521-4528.
如图1是一个真实世界中综合的推荐系统,它首先从不同的频道中集成了不同的项目(比如视频、新闻、文章),然后对这些项目进行排序并完成综合推荐。
综合推荐中面临着许多挑战:
而本文所提出的方法解决了上述挑战,并具有如下优势:
本文贡献如下:
其中,本文主要参考了DDPG(Deep Deterministic Policy Gradient),主要思想是通过两个网络分别学习产生动作和价值,即: Actor Network -> action Critic Network -> value(Q)
图2是HRL-Rec模型的整体概览,首先介绍相关符号: 低级状态:
低级动作:
低级奖励:
低级状态:
低级动作:
低级奖励:
衰减系数:
模型产生推荐的流程大致如下:
个位置根据状态
生成动作
来推荐一个频道
。
的约束下,根据状态
生成动作
,得到对应项目
。
和项目
,然后返回对应的奖励(
和
)给到对应的代理器。
对于LRA、HRA以及图中相关损失后面会介绍。
低级强化学习代理是一个频道选择器,由以下3部分组成:
。
使用GRU和self-attention对若干
序列进行建模,得到低级状态
:
具体细节可查看原文及对应参考文献。
得到低级动作
:
具体使用的是tanh作为激活函数,并且添加了高斯噪音。 得到若干低级动作
后,后面用过相似度损失sim loss,选择与目标最相似的一个低级动作作为输出,即选择的频道,即
。
+下一步奖励(衰减系数*
)的期望。此处的奖励
表示的是点击频道
的次数。
使用一个全连接层,用小q来估计大Q:
就是对状态和动作分别乘以权重参数后再加上偏置参数,最后使用ReLu激活函数。
高级强化学习代理是一个项目推荐器,与LRA很相似,也由3部分组成:
使用相似度损失,在若干高级代理中,得到最相似的作为推荐的项目
,即
。
与LRA相似,不再赘述,只是将奖励换了下,其中:
表示用户点击项目
的次数;
表示在项目
上的停留时间;
表示标签/类别的增量;
表示新标签/类别的数量;
表示目标Q值;
表示目标策略;
表是一个在线参数,在训练过程中进行更新;
是一个经验参数,在进行优化前固定。
公式10通过学习参数
作为低级动作的损失函数,希望奖励最大化,也就是最小化-Q:
最后通过公式11作为LRA loss,低级强化学习代理的损失函数:
其中,
是预测的(推荐的)动作;
是展示给用户的真实项目;
表示被用户
点击的项目
;
是预测的点击概率;
是权重向量;
是偏置。
中选择最相似的项目
:
超参数取值:
(
插播反爬信息)博主CSDN地址:https://wzlodq.blog.csdn.net/
在推荐中,大多数基于估计的强化学习方法遭受着严重的噪音和过拟合问题,这是因为估计和真实反馈之间存在差距。
因此,我们采用了
贪心策略,也就是有
的概率随机选择动作,有
的概率选择最优的动作。
这样做的可行性和优势:
实验指标:
表2显示HRL-Rec模型显著优于其他基线,显著性水平
。
分析:
实验相关指标:
将用户在线分为AB两组,分别使用不同方法,查看对比提升。
分析:
和新颖性奖励
到最后两个模型中,AWT提高了1.98%。
对各个部分进行消融实验,验证其有效性。
分析:
将不会考虑任何未来奖励,则表明了在推荐中考虑未来奖励是有效的;
和
是不可或缺的,提升了训练的稳定性和快速收敛性。
(a)对衰减系数
的分析
时,模型取得最好效果;
表示忽略任何未来奖励,曲线的上升验证了考虑未来奖励的重要性。
(b)对特征序列长度的分析
我们假设一个稳定的鲁棒的综合推荐系统,当数据每日更新时,应该具有稳定的频道比例,因此用频道比例的稳定作为在线模型稳定性的参考依据。
DQN模型最大和平均变化分别为18.0%和11.7%,而我们模型最大和平均变化分别为4.5%和1.4%。
分析:
在本工作中,我们强调了综合推荐并提出了HRL-Rec模型,它是由频道选择器和项目推荐器两部分组成,并且有多种奖励和损失。我们进行了大量的实验,验证了我们模型的改进。HRL-Rec已经成功应用到微信的Top Stories上,影响着数百万用户。
在未来,我们将探索更有效的奖励和复杂的分层强化学习框架,我们将进一步实验offpolicy来进行更好的探索。