AAAI2020| 当推荐系统邂逅线性残差GCN

DrugAI

修改于 2021-02-01 12:15:46

8530

修改于 2021-02-01 12:15:46

文章被收录于专栏：DrugAI

今天为大家介绍的是合肥工业大学程磊教授课题组在AAAI2020上发表的一篇关于推荐系统的文章。为了去除GCNs里的非线性操作带来的额外复杂度以及缓解迭代过程中的过度平滑问题，作者提出了一种专门为协同过滤设计的用户-物品交互建模的残差网络结构，并去除了以往图卷积网络的非线性，该模型取得了很好的推荐性能。

介绍

由于CNNs无法处理Non Euclidean Structure的数据，但现实生活中又有很多类似的结构，所以GCNs应运而生，它是CNNs处理基于图的数据的有效变体，并且近年来已被广泛应用于社交网络，交通网络和推荐系统等领域。GCNs的核心思想是多层叠加，每层迭代执行以下两步:节点嵌入与卷积邻域聚合;其次是由神经网络参数化的节点嵌入的非线性变换，因此，可以有效地捕获节点的高阶相似度。在基于协同过滤（CF）的推荐系统（RS）中，用户与物品（user-item）的交互行为可以视为二分图，所以许多研究人员将GCNs应用于推荐系统中，并且取得了不错的性能，但其仍存在两个待解决的问题：（1）时，GCNs采用图卷积操作和非线性变换的邻域聚合对user-item进行嵌入，但引入非线性特征变换会额外增加复杂性。（2）部分GCNs模型因为过度平滑而导致增加深度会降低模型效果。随着walk步数的增多，远距离节点的抵达难度越来越小，被随机选中的概率越来越大，同一连通分量内的节点的表征趋向于收敛到同一个值，很多任务的图是连通图，只有一个连通分量，或较少的连通分量，这就导致了节点的表征会趋向于收敛到一个值或几个值的问题。

为了解决上述两个问题，作者提出了一种基于线性残差图卷积网络的协同过滤模型——LR-GCCF。作者的贡献主要在两个方面：一是通过去除非线性提高推荐性能且降低复杂度；二是为了缓解迭代过程中的过度平滑问题，作者提出在每一层上学习残差user-item偏好。作者证明，通过线性残差学习，所提出的模型退化为一个线性模型，有效地利用user-item图结构进行推荐，而且与目前基于GCN的推荐模型相比，这种提出的模型更易于训练以及可以扩展到大型数据集。

模型

作者提出的LR-GCCF整体结构如下图所示：

⑴ 线性嵌入传播

给定用户对物品的评价，user-item的二部图表示为

，A是由评分矩阵R构造的：

使用

表示用户和物品的自由矩阵，

是用户嵌入子矩阵，

是物品嵌入子矩阵，LR-GCCF使用嵌入矩阵

作为输入，与基于节点特征作为固定输入数据的GCN任务不同，嵌入矩阵是未知的，需要在LR-GCCF中进行训练。

在每一个迭代步骤k+1，作者假定

是先前第k层

的线性聚合：

⑵ 残差偏好预测

具有预定义的深度K，线性嵌入的递归传播将在第K层停止，输出嵌入矩阵

。对于每个用户（物品），

捕获到k阶二部图的相似性。然后，许多基于嵌入的推荐模型会将用户的偏好预测为用户与物品潜在向量之间的内积：

在实践中，大多数基于GCN的变体，以及基于GCN的推荐模型，在K=2时都能获得最佳性能。这些GCN变体的总体趋势是:当K从0增加到1(2)时，性能会增加;当K继续增加时，性能会迅速下降。作者推测一个可能的原因是，在第k层，每个节点的嵌入被二部图的k阶邻居平滑。为了经验地证明过平滑假设，作者对每一个K值使用K层输出的余弦相似度来计算平均成对的user-user (item-item)嵌入相似度。特别的，对于每一对用户a和用户b，它们的相似度计算为

。然后，我们将所有对的余弦相似度的均值和方差绘制在下图中，在底部列出了推荐性能：

从上图中，可以看出两点。首先，随着K的增加，用户(物品)嵌入之间的方差变小，这是因为使用邻域正则化可以实现到K阶的平滑。其次，当K=0时，推荐性能较好。当我们增加K从0到2，性能提高不到10%。因此，作者根据经验得出BPR (K=0)已经可以在很大程度上近似用户的偏好。

基于以上两点观察，作者认为不是直接逼近每一层的每个用户-物品对的用户偏好，而是按下面公式进行残差偏好学习：

基于上面的残差偏好预测公式(12)，作者得到下面公式：

上式等价于将各层的嵌入串联起来，形成每个节点的最终嵌入。因为每个节点的子图都是不同的，记录每一层的表示来形成每个节点的最终嵌入更有信息性。

⑶ 模型学习

将线性嵌入传播方程(公式(8))代入残差预测函数(公式(13))的向量表示，有:

由于关注的是隐式反馈，作者在BPR中采用基于成对排序的损失函数为:

实验

⑴ 数据集

作者在两个公开的数据集上进行实验:Amazon Books 1和Gowalla。作者在下表中总结了两个数据集的统计数据。在数据预处理步骤中，删除交互记录少于10个的用户(物品)。之后，我们随机选择80%的记录用于训练，10%用于验证，剩下的10%用于测试。

⑵ 评估指标和基准

作者专注于向用户推荐物品，所以使用了两个广泛采用的排名指标来进行top-N推荐评价:HR@N和NDCG@N。对于每个用户，作者选择所有未评级的物品作为负面物品，并在排名过程中将它们与用户喜欢的积极物品结合起来。作者将提出的LR-GCCF模型与各种最新的基准进行比较，包括经典模型BPR、三种基于图卷积的推荐模型:GC-MC、PinSage和NGCF。

⑶ 参数设置

作者使用Pytorch实现了LR-GCCF模型。在作者提出的模型中有两个重要参数：用户和物品嵌入矩阵E的维数D和损失函数里的正则化参数。所有模型的嵌入大小固定为64。在LR-GCCF模型中，作者在

范围内尝试正则化参数，发现

可以达到最好的性能。

⑷ 全面比较

下面两幅图报告了HR@N和NDCG@N在两个数据集上的总体性能比较结果。

作者首先通过比较基于线性嵌入的模型和使用非线性嵌入的模型来分析线性嵌入传播的性能，如L-GC-MC和GC-MC。可以发现L-GC-MC比GC-MC有很大的优势，在比较LR-GCCF和NGCF时也存在类似的趋势，实证表明基于GCN的推荐下线性嵌入传播比非线性嵌入传播更具有效性。接下来，作者通过比较R-GC-MC vs GC-MC, NGCF vs PinSage, LR-GCCF和L-GCCF的结果来比较残差学习的性能。R-GC-MC没有表现出与GC-MC相当的性能，作者猜测可能的原因是GC-MC是基于一阶邻域聚集的。对于一阶邻域，每个邻域都有有限的邻域，过度平滑效应不适用于一阶邻域。在网络深层次中，过度平滑的效果变得更加严重。因此当用残差学习建模高阶图结构，NGCF优于PinSage，而LR-GCCF优于L-GCCF。最后，通过在LR-GCCF中将线性传播和残差学习结合起来，该模型的性能优于其他所有模型，表明了这两部分融合在协同过滤算法中的有效性。

为了更好地展示剩余偏好预测的效果，作者设计了一个删去了残差结构的作者所提模型的简化版本，作者称简化模型为L-GCCF。对于L-GCCF和LR-GCCF，根据每个预定义深度K，对于图中每个节点计算每对用户(物品)在其第K层输出嵌入

之间的余弦相似度。user-user (item-item)嵌入相似性的均值和方差统计如下图所示。

结果表明，与不进行残差学习的L-GCCF相比，LR-GCCF模型具有更大的用户-用户余弦相似度方差。实验证明，残差学习可以部分地缓解过度平滑问题，取得更好的性能。

结论

在本文中，作者回顾了当前基于GCN的推荐模型，提出了一个基于协同过滤算法的推荐的LR-GCCF模型。LR-GCCF主要由两部分组成：第一，随着简单GCNs的研究进展，作者根据经验去掉了非线性变换并将其替换为线性嵌入传播；其次，为了减少更高层次的图卷积带来的过度平滑效应，作者设计了一个残差偏好预测部分，在每一层都有一个残差偏好学习过程。大量的实验结果清楚地表明了作者提出的模型LR-GCCF的有效性和效率。

参考资料

论文：https://arxiv.org/abs/2001.10167

代码：https://github.com/newlei/LRGCCF

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-07-03，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习