关注我们,一起学习~
title:FeedRec: News Feed Recommendation with Various User Feedbacks link:https://arxiv.org/pdf/2102.04903.pdf code:https://github.com/wuch15/FeedRec from:WWW 2022
1. 导读
大多数现有的新闻推荐方法都依赖于隐式反馈,如点击来推断用户兴趣和模型训练。然而,点击行为通常包含大量噪音(误点击),无法帮助推断出复杂的用户兴趣,例如不喜欢。仅针对点击行为训练的feed推荐模型无法优化其他目标,例如用户参与度。
本文提出了一种新闻feed推荐方法,该方法可以利用各种用户反馈来增强用户兴趣建模和模型训练。
2. 方法
如图所示为FeedRec整理架构,该方法从用户的隐式和显式反馈中提取正向和负向的兴趣,从而进行后续feed信息的推荐。该方法考虑六种反馈:点击,跳过,分享,不喜欢,完成和快速关闭(对于停留页面时间短于T秒的行为归为这一类反馈),具体形式可以参考下图(论文中有具体例子)。
令反馈序列为其中N为序列长度,通过共享的编码器对行为进行编码得到对应的embedding为。然后通过transformer来捕获不同行为之间的关系,以序列表征E作为输入,输出,为了分别对不同的行为进行用户建模,这里将用户的行为序列按照行为类型进行分组,以“分享”为例表示为,同理可得(完成),(点击),(跳过),(快速关闭),(不喜欢)。
然后,将分组后的表征分别经过各自对应的transformer,发掘相同类型行为之间的关系,因为不同类型的行为序列的稀疏程度,嘈杂程度,重要程度都不同,所以需要分开编码。编码后用的embedding序列用R表示,以“分享”为例。基于每种反馈的表征序列,本节根据隐式弱反馈(例如点击)与更强的反馈(例如,分享和完成)提出了一个从强到弱的注意力网络。由于像分享和不喜欢这样的显式反馈通常是可靠的,可以直接将它们分别视为纯正反馈和负反馈。对它们应用两个独立的注意力网络来学习一个显式的正反馈表征 和一个显式的负反馈表征,公式如下:
然后使用显式正反馈来选择信息丰富的“完成”反馈,并构建隐式强正反馈的表示,公式如下:
同理用显式负反馈表征来构建隐式强负反馈“快速关闭”的表征,公式如下,
点击和跳过反馈通常是嘈杂的,这是因为点击不一定意味着喜欢或满意,那些看过但跳过的新闻也可能与用户兴趣相关。因此,需要从中提炼出真正的积极和消极的用户兴趣。根据它们与强反馈的相关性来选择点击和跳过反馈中的信息,以学习积极和消极的用户兴趣表征。使用 和的总和作为提取基于点击和跳过的弱积极兴趣的注意力查询(对于负向兴趣可同理使用,计算得到和),计算如下:
最后,是聚合层,先将显式正反馈聚合,公式如下,其中v是可学习参数,σ是sigmoid函数。
同理可以聚合显式负反馈,公式如下,同样根据上面的方法可以聚合隐式反馈(点击和跳过)的正负表征,用,表示。从而得到最终的表征为下式,表征前面的是对应的可学习参数。
本节主要是对FeedRec的新闻编码器(news encoder)进行介绍,这里对每一种反馈计算五中embedding
现有的新闻推荐方法主要依靠点击信号来训练推荐模型。但是,新闻点击与用户参与度或满意度之间通常存在一些差距,因为如果用户对新闻内容的质量不满意,他们可能会很快离开新闻页面。因此,本文在三个任务中联合训练模型,包括点击预测、完成预测和停留时间预测,以对点击和用户参与信息进行编码。
如图所示为训练框架图。用户编码器从反馈序列中学习用户embedding u,使用新闻编码器将候选新闻编码为其embedding e。将这对用户和候选新闻的预测点击、完成和停留时间分数分别表示为,,,公式如下,
使用负采样方法,对于每个点击的新闻,采样K个同页面展示的跳过的新闻,然后对K+1个新闻预测三种目标分数,损失函数如下,可以发现,K个负样本是用于点击预测的,而完成和停留时间预测还是用原有的样本。
并且由于点击和跳过进行了弱正负反馈的表针个提取,他们是通过相同的表征中提取出来的,需要对其相似性进行约束,即相似度肯定需要是低的。损失如下,
总损失如下,
3. 结果
4. 总结
本文主要是考虑了feed推荐中的多种反馈,有强显式反馈和弱隐式反馈,利用强反馈挖掘弱反馈中包含的积极和消极的信息,对用户的行为进行预测。并且,利用多目标优化,对点击优化的同时,对停留时间和完成度进行预测,从而提升了模型的整体性能,以及用户参与度。