前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >WWW'22「微软」FeedRec:基于多反馈的新闻Feed推荐

WWW'22「微软」FeedRec:基于多反馈的新闻Feed推荐

作者头像
秋枫学习笔记
发布2022-09-19 10:52:44
5220
发布2022-09-19 10:52:44
举报
文章被收录于专栏:秋枫学习笔记

关注我们,一起学习~

title:FeedRec: News Feed Recommendation with Various User Feedbacks link:https://arxiv.org/pdf/2102.04903.pdf code:https://github.com/wuch15/FeedRec from:WWW 2022

1. 导读

大多数现有的新闻推荐方法都依赖于隐式反馈,如点击来推断用户兴趣和模型训练。然而,点击行为通常包含大量噪音(误点击),无法帮助推断出复杂的用户兴趣,例如不喜欢。仅针对点击行为训练的feed推荐模型无法优化其他目标,例如用户参与度。

本文提出了一种新闻feed推荐方法,该方法可以利用各种用户反馈来增强用户兴趣建模和模型训练。

  • 设计了一个统一的用户建模框架,以结合各种显式和隐式用户反馈来推断积极和消极的用户兴趣。
  • 提出了一个从强到弱的注意力网络,它使用强反馈的表征从隐式弱反馈中提取正面和负面的用户兴趣,以实现准确的用户兴趣建模。
  • 提出了一个多反馈模型训练框架来学习参与感知的feed推荐模型。

2. 方法

2.1 用户建模

如图所示为FeedRec整理架构,该方法从用户的隐式和显式反馈中提取正向和负向的兴趣,从而进行后续feed信息的推荐。该方法考虑六种反馈:点击,跳过,分享,不喜欢,完成和快速关闭(对于停留页面时间短于T秒的行为归为这一类反馈),具体形式可以参考下图(论文中有具体例子)。

令反馈序列为其中N为序列长度,通过共享的编码器对行为进行编码得到对应的embedding为。然后通过transformer来捕获不同行为之间的关系,以序列表征E作为输入,输出,为了分别对不同的行为进行用户建模,这里将用户的行为序列按照行为类型进行分组,以“分享”为例表示为,同理可得(完成),(点击),(跳过),(快速关闭),(不喜欢)。

然后,将分组后的表征分别经过各自对应的transformer,发掘相同类型行为之间的关系,因为不同类型的行为序列的稀疏程度,嘈杂程度,重要程度都不同,所以需要分开编码。编码后用的embedding序列用R表示,以“分享”为例。基于每种反馈的表征序列,本节根据隐式弱反馈(例如点击)与更强的反馈(例如,分享和完成)提出了一个从强到弱的注意力网络。由于像分享和不喜欢这样的显式反馈通常是可靠的,可以直接将它们分别视为纯正反馈和负反馈。对它们应用两个独立的注意力网络来学习一个显式的正反馈表征 和一个显式的负反馈表征,公式如下:

然后使用显式正反馈来选择信息丰富的“完成”反馈,并构建隐式强正反馈的表示,公式如下:

同理用显式负反馈表征来构建隐式强负反馈“快速关闭”的表征,公式如下,

点击和跳过反馈通常是嘈杂的,这是因为点击不一定意味着喜欢或满意,那些看过但跳过的新闻也可能与用户兴趣相关。因此,需要从中提炼出真正的积极和消极的用户兴趣。根据它们与强反馈的相关性来选择点击和跳过反馈中的信息,以学习积极和消极的用户兴趣表征。使用 和的总和作为提取基于点击和跳过的弱积极兴趣的注意力查询(对于负向兴趣可同理使用,计算得到和),计算如下:

最后,是聚合层,先将显式正反馈聚合,公式如下,其中v是可学习参数,σ是sigmoid函数。

同理可以聚合显式负反馈,公式如下,同样根据上面的方法可以聚合隐式反馈(点击和跳过)的正负表征,用,表示。从而得到最终的表征为下式,表征前面的是对应的可学习参数。

2.2 新闻建模

本节主要是对FeedRec的新闻编码器(news encoder)进行介绍,这里对每一种反馈计算五中embedding

  • text embedding:利用transformer编码新闻的标题捕获其中的语义信息;
  • position embedding:对反馈所处位置进行编码;
  • feedback embedding:对反馈类型进行编码;
  • dwell time embedding:停留时间编码,使用量化函数 将实值停留时间 𝑡 转换为离散值以构建embedding表;
  • time interval embedding:相邻反馈之间的时间间隔,捕获相邻反馈之间的相关性。使用相同的量化函数将当前和先前反馈之间的时间间隔转换为用于嵌入的离散变量。

2.3 多反馈模型训练

现有的新闻推荐方法主要依靠点击信号来训练推荐模型。但是,新闻点击与用户参与度或满意度之间通常存在一些差距,因为如果用户对新闻内容的质量不满意,他们可能会很快离开新闻页面。因此,本文在三个任务中联合训练模型,包括点击预测、完成预测和停留时间预测,以对点击和用户参与信息进行编码。

如图所示为训练框架图。用户编码器从反馈序列中学习用户embedding u,使用新闻编码器将候选新闻编码为其embedding e。将这对用户和候选新闻的预测点击、完成和停留时间分数分别表示为,,,公式如下,

使用负采样方法,对于每个点击的新闻,采样K个同页面展示的跳过的新闻,然后对K+1个新闻预测三种目标分数,损失函数如下,可以发现,K个负样本是用于点击预测的,而完成和停留时间预测还是用原有的样本。

并且由于点击和跳过进行了弱正负反馈的表针个提取,他们是通过相同的表征中提取出来的,需要对其相似性进行约束,即相似度肯定需要是低的。损失如下,

总损失如下,

3. 结果

4. 总结

本文主要是考虑了feed推荐中的多种反馈,有强显式反馈和弱隐式反馈,利用强反馈挖掘弱反馈中包含的积极和消极的信息,对用户的行为进行预测。并且,利用多目标优化,对点击优化的同时,对停留时间和完成度进行预测,从而提升了模型的整体性能,以及用户参与度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2.1 用户建模
  • 2.2 新闻建模
  • 2.3 多反馈模型训练
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档