前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >协同过滤中考虑表征对齐和均匀性

协同过滤中考虑表征对齐和均匀性

作者头像
秋枫学习笔记
发布2022-09-19 10:07:39
5210
发布2022-09-19 10:07:39
举报
文章被收录于专栏:秋枫学习笔记

关注我们,一起学习~

标题:Towards Representation Alignment and Uniformity in Collaborative Filtering 链接:https://arxiv.org/pdf/2206.12811.pdf 代码:https://github.com/THUwangcy/DirectAU 会议:KDD 2022 学校:清华

1. 导读

本文主要针对协同过滤方法中的数据表征展开研究,现有的研究主要集中在设计更强大的编码器(例如,图神经网络)以学习更好的表征。而缺乏对 CF 中表征的期望属性进行研究,这对于理解现有 CF 方法的基本原理和设计新的学习目标很重要。本文从对齐和超球面上的均匀性的角度来衡量 CF 中的表征质量。

  • 首先从理论上揭示了 BPR 损失与这两个属性(对齐和均匀性)之间的联系。
  • 从量化对齐和均匀性的角度对典型 CF 方法的学习动态进行了分析,表明更好的对齐或均匀性都有助于提高推荐性能。
  • 根据分析结果,提出了一个直接优化这两个属性的学习目标,称为 DirectAU。

2. 基础

2.1 协同过滤

U 和 I 分别表示用户和商品集。给定一组观察到的用户-商品交互

\mathcal{R}=\{(u,i)|u与i交互\}

,CF 方法预测每个未观察到的用户-商品对的分数

s(u,i)\in \mathbb{R}

。然后根据预测分数进行推荐。

使用编码器网络f()将每个用户和商品映射到低维

f(u),f(i)\in \mathbb{R^d}

𝑑 是潜在空间的维度。例如,矩阵分解模型中的编码器通常是一个embedding表,它根据每个用户和商品的 ID 直接将每个用户和商品映射到一个潜在向量。基于图的模型中的编码器进一步利用了邻域信息。预测分数为用户和商品表征之间的相似度(例如,点积)。通常采用BPR损失函数,如下所示:

\mathcal{L}_{B P R}=\frac{1}{|\mathcal{R}|} \sum_{(u, i) \in \mathcal{R}}-\log \left[\operatorname{sigmoid}\left(s(u, i)-s\left(u, i^{-}\right)\right)\right]

2.2 对齐与均匀性

表征的质量与两个关键属性高度相关,即对齐和均匀性。给定数据分布

p_{data}(\cdot)

和正样本对的分布

p_{pos}(\cdot,\cdot)

,对齐定义为正样本对的标准化embedding之间的距离的期望,公式如下,其中

\tilde{f}()

为L2标准化表征

l_{\text {align }} \triangleq \underset{\left(x, x^{+}\right) \sim p_{\text {pos }}}{\mathbb{E}}\left\|\tilde{f(x)}-\tilde{f\left(x^{+}\right)}\right\|^{2}

均匀性损失为成对高斯函数的均值的对数,公式如下,

l_{\text {uniform }} \triangleq \log \underset{x, y \sim p_{\text {data }}}{\mathbb{E}} e^{-2\|f(x)-f(\tilde{y})\|^{2}}

这两个指标与表征学习的目标非常一致:正实例应该彼此靠近,而随机实例应该分散在超球面上

3. 现象

为了验证BPR损失以及相关方法在优化的过程中会优化对其和均匀性,作者在不同的方法上进行了实验,随着优化的不断进行,对齐和均匀性也在发生着变化。从图中可以发现,随着优化的进行,对齐和均匀性会得到相应的优化和改善。这也说明CF 中的用户和商品表征确实偏爱这两个属性。实现更好的对齐或均匀性都有助于提高推荐性能,同时优化它们可能是有益的。

从理论上作者也进行了相应的推导,具体可见论文3.1。

4. DirectAU

上述分析表明,对齐和均匀性对于学习信息丰富的用户和商品表示至关重要。本文设计一个新的学习目标,直接优化这两个属性以实现更好的推荐性能。

输入的正用户-商品对被编码为embedding,并采用 L2 归一化到超球面。相应的损失函数如下,对齐损失提高了正相关用户-商品对的表征之间的相似性,而均匀性损失衡量了表征在超球面上的分散程度。分别计算用户表征和商品表示的均匀性,因为用户和商品的数据分布可能是多样化的,更适合分别测量。

\begin{aligned} l_{\mathrm{align}}=&\underset{(u, i) \sim p_{\text {pos }}}{\mathbb{E}} \| \tilde{f (u)}-\tilde{f (i) }\|^{2} \\ l_{\text {uniform }}=& \log \underset{u, u^{\prime} \sim p_{\text {user }}}{\mathbb{E}} e^{-2 \| \tilde{f(u)}-\tilde{f(u’)} \|^{2}} / 2+\\ & \log \underset{i, i^{\prime} \sim p_{\text {item }}}{\mathbb{E}} e^{-2\left\|\tilde{f(i)}-\tilde{f\left(i^{\prime}\right)}\right\|^{2} } / 2 \end{aligned}

将两者结合,损失函数为

\mathcal{L}_{DirectAU}=l_{align}+\gamma l_{uniform}

5. 结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2.1 协同过滤
  • 2.2 对齐与均匀性
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档