关注我们,一起学习~
标题:Towards Representation Alignment and Uniformity in Collaborative Filtering 链接:https://arxiv.org/pdf/2206.12811.pdf 代码:https://github.com/THUwangcy/DirectAU 会议:KDD 2022 学校:清华
1. 导读
本文主要针对协同过滤方法中的数据表征展开研究,现有的研究主要集中在设计更强大的编码器(例如,图神经网络)以学习更好的表征。而缺乏对 CF 中表征的期望属性进行研究,这对于理解现有 CF 方法的基本原理和设计新的学习目标很重要。本文从对齐和超球面上的均匀性的角度来衡量 CF 中的表征质量。
2. 基础
U 和 I 分别表示用户和商品集。给定一组观察到的用户-商品交互
,CF 方法预测每个未观察到的用户-商品对的分数
。然后根据预测分数进行推荐。
使用编码器网络f()将每个用户和商品映射到低维
𝑑 是潜在空间的维度。例如,矩阵分解模型中的编码器通常是一个embedding表,它根据每个用户和商品的 ID 直接将每个用户和商品映射到一个潜在向量。基于图的模型中的编码器进一步利用了邻域信息。预测分数为用户和商品表征之间的相似度(例如,点积)。通常采用BPR损失函数,如下所示:
表征的质量与两个关键属性高度相关,即对齐和均匀性。给定数据分布
和正样本对的分布
,对齐定义为正样本对的标准化embedding之间的距离的期望,公式如下,其中
为L2标准化表征
均匀性损失为成对高斯函数的均值的对数,公式如下,
这两个指标与表征学习的目标非常一致:正实例应该彼此靠近,而随机实例应该分散在超球面上。
3. 现象
为了验证BPR损失以及相关方法在优化的过程中会优化对其和均匀性,作者在不同的方法上进行了实验,随着优化的不断进行,对齐和均匀性也在发生着变化。从图中可以发现,随着优化的进行,对齐和均匀性会得到相应的优化和改善。这也说明CF 中的用户和商品表征确实偏爱这两个属性。实现更好的对齐或均匀性都有助于提高推荐性能,同时优化它们可能是有益的。
从理论上作者也进行了相应的推导,具体可见论文3.1。
4. DirectAU
上述分析表明,对齐和均匀性对于学习信息丰富的用户和商品表示至关重要。本文设计一个新的学习目标,直接优化这两个属性以实现更好的推荐性能。
输入的正用户-商品对被编码为embedding,并采用 L2 归一化到超球面。相应的损失函数如下,对齐损失提高了正相关用户-商品对的表征之间的相似性,而均匀性损失衡量了表征在超球面上的分散程度。分别计算用户表征和商品表示的均匀性,因为用户和商品的数据分布可能是多样化的,更适合分别测量。
将两者结合,损失函数为
5. 结果