前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AAAI2021-Hierarchical Reinforcement Learning for Integrated Recommendation

AAAI2021-Hierarchical Reinforcement Learning for Integrated Recommendation

作者头像
唔仄lo咚锵
发布2023-03-11 14:17:36
3850
发布2023-03-11 14:17:36
举报
文章被收录于专栏:blog(为什么会重名,真的醉了)

文章目录

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站

介绍


Xie R, Zhang S, Wang R, et al. Hierarchical reinforcement learning for integrated recommendation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(5): 4521-4528.

在这里插入图片描述
在这里插入图片描述

如图1是一个真实世界中综合的推荐系统,它首先从不同的频道中集成了不同的项目(比如视频、新闻、文章),然后对这些项目进行排序并完成综合推荐。

综合推荐中面临着许多挑战

  1. 不同的项目有不同的特征,对应着不同的排序策略。
  2. 如何学习用户在频道和项目两个层面上的偏好。
  3. 如何保证在线模型的稳定性?也就是随着数据的更新,模型应保持个频道占比的相对稳定。

而本文所提出的方法解决了上述挑战,并具有如下优势

  1. 有效的找到最优解。
  2. 多种奖励来确保推荐的准确性、多样性和新颖性。
  3. 对频道和项目进行了解耦合。

本文贡献如下:

  1. 提出了一个新的HRL-Rec(基于分层强化学习的推荐)模型。
  2. 提出了一个新的HRL(分层强化学习)框架。
  3. 通过实验验证了该模型的有效性和稳定性。

相关工作


  • 推荐系统 一些经典方法:Logistic regression(LR)、Factorization machine(FM) LR+DNN:Wide&Deep FM+DNN:DeepFM、NFM、AFM 更好提取特征:AutoInt、AFN、AutoFIS 更好建模用户行为:BERT4Rec、DFN
  • 强化学习 基于策略的:Policy gradient(PG) 基于价值的:Deep Q-network(DQN)、Double、Dueling 基于策略和价值的:A3C、DDPG
  • 用于推荐的强化学习 相关方法有: DQN+用户活跃度 神经网络来模拟奖励 对抗训练 RL+监督方法 PG+top-k off policy 基于模板的Q学习

其中,本文主要参考了DDPG(Deep Deterministic Policy Gradient),主要思想是通过两个网络分别学习产生动作和价值,即: Actor Network -> action Critic Network -> value(Q)

方法论


问题定义和模型概览

在这里插入图片描述
在这里插入图片描述

图2是HRL-Rec模型的整体概览,首先介绍相关符号: 低级状态:

s^l

低级动作:

a^l

低级奖励:

r^l

低级状态:

s^h

低级动作:

a^h

低级奖励:

r^h

衰减系数:

\gamma \in [0,1]

模型产生推荐的流程大致如下:

  1. LRA(低级学习代理)在第
t

个位置根据状态

s^l_t

生成动作

a^l_t

来推荐一个频道

c_t

  1. HRA(高级学习代理)在频道
c_t

的约束下,根据状态

s^h_t

生成动作

a^h_t

,得到对应项目

d_t

  1. 环境接收到频道
c_t

和项目

d_t

,然后返回对应的奖励(

r_t^l

r_t^h

)给到对应的代理器。

  1. 最后更新状态,重复循环。

对于LRA、HRA以及图中相关损失后面会介绍。

频道选择器(LRA)

低级强化学习代理是一个频道选择器,由以下3部分组成:

  1. 低级状态编码器 也就是对数据进行建模,提取特征。使用a)用户长期档案、b)推荐上下文、c)当前频道特征、d)累计频道特征,这四方面构建特征矩阵
f^l_i

在这里插入图片描述
在这里插入图片描述

使用GRU和self-attention对若干

f

序列进行建模,得到低级状态

s_t^l

在这里插入图片描述
在这里插入图片描述

具体细节可查看原文及对应参考文献。

  1. 低级编码器 使用了一个全连接层作为编码器,通过低级状态
s_t^l

得到低级动作

a_t^l

在这里插入图片描述
在这里插入图片描述

具体使用的是tanh作为激活函数,并且添加了高斯噪音。 得到若干低级动作

a^l

后,后面用过相似度损失sim loss,选择与目标最相似的一个低级动作作为输出,即选择的频道,即

a_t^l --sim loss-->c_t

  1. 低级评估器 Q值表示当前步的期望奖励,需要一点强化学习背景,也就是当前奖励
r_t^l

+下一步奖励(衰减系数*

Q_{t+1}

)的期望。此处的奖励

r_t^l

表示的是点击频道

c_t

的次数。

在这里插入图片描述
在这里插入图片描述

使用一个全连接层,用小q来估计大Q:

在这里插入图片描述
在这里插入图片描述

就是对状态和动作分别乘以权重参数后再加上偏置参数,最后使用ReLu激活函数。

项目推荐器(HRA)

高级强化学习代理是一个项目推荐器,与LRA很相似,也由3部分组成:

  1. 高级状态编码器 与LRA相似,只是将频道特征换成了项目特征。
  2. 高级编码器 也是一个全连接层:
在这里插入图片描述
在这里插入图片描述

使用相似度损失,在若干高级代理中,得到最相似的作为推荐的项目

d_t

,即

a_h^l --sim loss-->d_t

  1. 高级评估器
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

与LRA相似,不再赘述,只是将奖励换了下,其中:

r_t^{click}

表示用户点击项目

d_t

的次数;

r_t^{time}

表示在项目

d_t

上的停留时间;

r_t^{diver}

表示标签/类别的增量;

r_t^{novel}

表示新标签/类别的数量;

损失函数

  • LRA loss 公式9采用均方误差作来衡量低级评估器的损失。其中,
y_t^l

表示目标Q值;

\pi

表示目标策略;

\theta^l

表是一个在线参数,在训练过程中进行更新;

\theta^{l'}

是一个经验参数,在进行优化前固定。

在这里插入图片描述
在这里插入图片描述

公式10通过学习参数

\phi^h

作为低级动作的损失函数,希望奖励最大化,也就是最小化-Q:

在这里插入图片描述
在这里插入图片描述

最后通过公式11作为LRA loss,低级强化学习代理的损失函数:

在这里插入图片描述
在这里插入图片描述
  • HRA loss HRA loss高级强化学习代理器的损失与LRA loss基本一致,不再赘述:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  • CTR-oriented supervised loss 点击通过率监督损失,也就是推荐并展示的项目中,有多少是用户点击了的(推荐成功了的)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其中,

a

是预测的(推荐的)动作;

\hat{d}

是展示给用户的真实项目;

\hat{d}\in C_u

表示被用户

u

点击的项目

\hat{d}

f(a,\hat{d})

是预测的点击概率;

w_f

是权重向量;

b_f

是偏置。

  • Similarity loss 使用余弦相似度,从虚拟动作
a

中选择最相似的项目

d

在这里插入图片描述
在这里插入图片描述
  • Final loss 最后将上述损失相加得到最终损失函数:
在这里插入图片描述
在这里插入图片描述

超参数取值:

\lambda_l:\lambda_h:\lambda_c:\lambda_s=5:5:1:1

插播反爬信息 )博主CSDN地址:https://wzlodq.blog.csdn.net/

在线探索

在推荐中,大多数基于估计的强化学习方法遭受着严重的噪音和过拟合问题,这是因为估计和真实反馈之间存在差距。

因此,我们采用了

\epsilon

贪心策略,也就是有

epsilon

的概率随机选择动作,有

1-\epsilon

的概率选择最优的动作。

这样做的可行性和优势:

  • 我们的在线模型被百万级的用户广泛使用,这意味着HRL-Rec可以得到充足的训练。
  • 估计的方法不可避免的产生不准确性和偏见奖励,而HRL-Rec中的在线探索全部都是由真实用户进行评估的。
  • 在线探索的质量是可接受的,因为我们是从top 200的项目中进行随机选择的。

实验

离线评估

实验指标:

  • AUC 曲线下面积,用于衡量推荐模型结果的相关性。
  • RelaImpr 相对提高率,本模型相对于其他模型的提高改进率。
在这里插入图片描述
在这里插入图片描述

表2显示HRL-Rec模型显著优于其他基线,显著性水平

\alpha=0.01

分析:

  1. 学习了用户在频道和项目两个层面上的偏好;
  2. 更有效的找到最优解;
  3. 提高了用户短期和长期体验。

在线A/B测试

实验相关指标:

  • CTR:点击通过率
  • ACN:人均点击次数
  • AWT:人均观看次数
在这里插入图片描述
在这里插入图片描述

将用户在线分为AB两组,分别使用不同方法,查看对比提升。

分析:

  1. HRL-Rec显著优于其他RL版本;
  2. GRU表现优于LR;Double和Dueling策略是有效的;分层强化学习的架构对于综合推荐是有效的;
  3. 添加多样性奖励
r^{diver}

和新颖性奖励

r^{novel}

到最后两个模型中,AWT提高了1.98%。

消融实验

在这里插入图片描述
在这里插入图片描述

对各个部分进行消融实验,验证其有效性。

分析:

  1. 使用全连接层和池化层作为被消融状态,发现self-attention(用于特征提取)和GRU( 用于序列编码)是至关重要的;
\gamma=0

将不会考虑任何未来奖励,则表明了在推荐中考虑未来奖励是有效的;

  1. 在我们的模型中,损失
L_s

L_c

是不可或缺的,提升了训练的稳定性和快速收敛性。

模型分析

在这里插入图片描述
在这里插入图片描述

(a)对衰减系数

\gamma

的分析

\gamma=0.3

时,模型取得最好效果;

\gamma=0

表示忽略任何未来奖励,曲线的上升验证了考虑未来奖励的重要性。

(b)对特征序列长度的分析

  1. 当序列长度取50时,HRL-Rec实现了最佳效果。
  2. 曲线的上升表明考虑用户历史行为是很有帮助的,曲线的下降表明考虑过长的用户历史也会有副作用。

在线模型稳定性

在这里插入图片描述
在这里插入图片描述

我们假设一个稳定的鲁棒的综合推荐系统,当数据每日更新时,应该具有稳定的频道比例,因此用频道比例的稳定作为在线模型稳定性的参考依据。

DQN模型最大和平均变化分别为18.0%和11.7%,而我们模型最大和平均变化分别为4.5%和1.4%。

分析:

  1. 我们模型成功的学习到了用户在频道上的偏好,而这个偏好是很稳定的;
  2. 解耦合了频道选择器和项目推荐器,平滑了频道占比的扰动。

总结

在本工作中,我们强调了综合推荐并提出了HRL-Rec模型,它是由频道选择器和项目推荐器两部分组成,并且有多种奖励和损失。我们进行了大量的实验,验证了我们模型的改进。HRL-Rec已经成功应用到微信的Top Stories上,影响着数百万用户。

在未来,我们将探索更有效的奖励和复杂的分层强化学习框架,我们将进一步实验offpolicy来进行更好的探索。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 介绍
  • 相关工作
  • 方法论
    • 问题定义和模型概览
      • 频道选择器(LRA)
        • 项目推荐器(HRA)
          • 损失函数
            • 在线探索
            • 实验
              • 离线评估
                • 在线A/B测试
                  • 消融实验
                    • 模型分析
                      • 在线模型稳定性
                      • 总结
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档