可以看到，整个推荐系统架构主要包含四部分，新闻画像层（news profile layer），用户画像层（user profile layer），召回层（recall layer）和排序层（rank layer）。在新闻画像层，对新闻相关的特征如标签，类别等进行提取。在用户画像层，对用户的基本画像特征和行为特征进行建模。这里很重要的一块是对用户偏好标签的预测，这里将用户点击过的文章对应的标签集合作为候选集，基于后文将要介绍的模型对这些标签进行偏好预测，并用于后续阶段。随后是召回层，有多种召回方式，包括基于标签的召回、基于协同过滤的召回和基于模型的召回。最后是排序层，可以使用更为复杂的模型对召回层得到的结果进行精确的排序，最后展示给用户。

本文重点关注如何建模用户对于文章标签的偏好。本文提出了User Tag Profiling Model (UTPM)，咱们在下一节进行介绍。

2、UTPM模型介绍

UPTM的整体结构如下图所示：

可以看到，一共分为5层，分别是feature input layer、attention fusion layer、cross feature layer、fully connect layer和predicting layer，接下来依次进行介绍。

2.1 feature input layer

对于输入特征，主要包含两大部分：用户画像信息和用户历史阅读信息。用户画像信息包括用户的年龄、性别等；用户历史阅读信息包括用户历史阅读过的新闻对应的标签集合、类别集合等。所有的特征都是离散特征，每个特征对应一个单独的field。同时，部分是多值离散特征，如点击过的标签集合和类别集合。离散特征首先会通过embedding层转换成相同长度的embedding向量。

2.2 attention fusion layer

在这一层，首先会对多值离散特征进行处理，最简单的方法是avg／max-pooling的方式，但这种方式没有考虑到不同取值的重要性，因此本文采用的是multi-head attention的方式（这里不是multi-head self-attention），通过两个可学习的query向量q1和q2，分别计算域内取值的权重，并进行加权求和，得到两个向量输出。以q1为例，计算过程如下：

这里注意的一点是，所有的域共用query向量q1和q2，但参数矩阵W则是每个域独有的参数。

这样每个域的输出都确定了，对于单值离散特征，直接通过embedding层得到对应的embedding，对于多值离散特征，则通过attention方式得到两个向量输出。接下来，对于不同域的输出，以同样的multi-head attention的方式进行加权得到两个向量输出。同样，无论是域内还是域间，都共用query向量q1和q2。实验也证明这种共享的方式相对于不共享的方式，带来了更好的实验效果。

这里，attention fusion layer的最终输出计作x

2.3 cross feature layer

cross feature layer主要进行特征交互。这里对x的不同维度之间进行特征交叉。这里对x里面的每一维xi，都对应一个隐向量vi，那么xi和xj的交叉结果ci,j计算如下：

所有维度交叉的结果进行拼接，得到输出c，假设x的长度为E，则向量c的长度是E(E-1)/2。

2.4 fully connect layer

这里，将attention fusion layer的输出x和cross feature layer的输出c进行拼接，经过两层全连接网络得到最终的用户向量u。

2.5 predicting layer

这里的关键是，label如何定义？一种做法是把所有用户点击过的新闻中的标签集合作为正样本，把曝光未点击的标签集合作为负样本。但用户点击某个新闻，并不一定是对这篇新闻所有对应的标签都感兴趣，有可能仅仅对其中部分的标签感兴趣。因此论文没有采用上述的方式。而是将新闻是否点击作为label，预测值的计算过程如下：首先，对于某篇新闻，其对应的所有标签都会转换成与用户向量u相同长度的向量，随后用户向量u与所有的标签向量进行内积计算并求和，再通过sigmoid得到预测值：

最终的损失为logloss：

当然，实验结果上也证明这种学习方式，能够取得更好的实验效果。

3、实验结果

最后简单看下模型实验部分，不用多说，肯定是比众多的基线模型好：

好了，本文就介绍到这里，感兴趣的小伙伴可以下载原文进行阅读。

往期推荐！

推荐系统遇上深度学习(九十七)-[阿里]使用用户未点击行为增强序列推荐效果

推荐系统遇上深度学习(九十五)-[雅虎]点击率预估中的软频率控制

画像标签

推荐系统遇上深度学习(九十八)-[微信]推荐系统中更好地学习用户-标签偏好

1、背景

2、UTPM模型介绍

2.1 feature input layer

2.2 attention fusion layer

2.3 cross feature layer

2.4 fully connect layer

2.5 predicting layer

3、实验结果

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐