WWW2023 | 如何设置温度系数？用于推荐的自适应调节表征模长的方法

数据派THU

发布于 2023-04-25 14:41:33

4650

发布于 2023-04-25 14:41:33

文章被收录于专栏：数据派THU数据派THU

来源：机器学习与推荐算法本文约4000字，建议阅读8分钟本文关注推荐系统中的表征模长，通过理论和实验强调归一化的重要性。

TLDR：本文关注推荐系统中的表征模长，通过理论和实验强调归一化的重要性。同时针对其存在的温度系数敏感的问题，本文提出一种自适应、个性化策略以解决推荐系统中的实际问题。

论文： https://arxiv.org/abs/2302.04775

代码： https://github.com/junkangwu/Adap_tau

个人主页： https://junkangwu.github.io/

一、摘要

近年来，基于表征学习的方法在推荐系统中取得了巨大的成功。尽管它们有不错的性能，但我们认为这些方法的一个潜在局限性——表征模长没有被明确调节，这可能会加剧流行偏见和训练不稳定性，阻碍模型做出正确的推荐。通过将用户以及物品表征模长归一化为特定值（），我们在四个真实世界的数据集上观察到了显著的性能提升（平均9%）。然而与此同时，但我们也揭示了在推荐中应用归一化时的一个严重缺陷——模型性能对温度系数的选取极其敏感。

为了充分发挥归一化的优点，同时规避其局限性，本文研究了如何自适应地设置适当的。为此，我们首先对进行全面分析，以充分了解其在建议中的作用。然后，我们针对温度系数提出了一种自适应细粒度策略Adap-，该策略满足四个理想的性质，包括自适应性、个性化、高效和与模型无关性。通过进行了大量的实验来验证该方法的有效性。

二、研究背景

2.1 损失函数

用于训练推荐模型的损失函数有多种选择，包括pointwise loss（例如BCE，MSE），pairwise loss（例如BPR）和Softmax损失。最近的工作[1]发现，Softmax损失可以减轻流行偏见，实现良好的训练稳定性，并与衡量指标（ndcg）有一致性关联。此外，Softmax损失可以被认为是常用BPR损失的扩展。因此，我们将Softmax作为分析的代表性损失，可以公式化为：

2.2 表征模长

本项工作研究了在推荐中表征模长的性质。在内积的基础上，我们使用表征归一化作为预测目标：

其中用户和物品的表征模长已经被重新放缩。如公式中第一部分可以理解为余弦相似性，第二个因子可以理解为模长归一化为。

我们注意到，我们没有直接引入约束表征模长的的惩罚项，而是在对比学习中借用了类似的想法，并利用了传统的温度。这种比对可以使我们的发现更好地推广到其他领域。

三、表征模长理论分析

3.1 理论分析

引理一：通过采用内积的方式作为用户和物品之间相似度计算方式，我们可以得到物品表征模长在迭代过程中满足：

尤其在于训练初期，和物品流行度成正比：

从表达式可以看出，训练初期，用户和物品因随机初始化分布较为均匀，没有显著差异，而物品流行度则为占领主导地位控制物品表征模长的数值。

3.2 实验分析

3.2.1 实验设置

为了显示表征模长自由变化的影响，我们进行了四个实验：（1）我们首先在训练过程中可视化不同物品流行度的物品表征模长变化趋势（图左上）。在这里，我们遵循[1]，并根据物品受欢迎程度将物品分为十组。组ID越大，表示该组包含的热门物品越多。（2）我们还报告了不同流行度物品组的性能（图右上）。同时针对是否进行归一化（是否控制表征模长），我们展示了正样本训练过程中打分变化趋势（图左下）；以及两者模型训练过程中收敛情况对比（图右下）

3.2.2 实验分析

如果我们把注意力放在训练的早期阶段（图左上），流行物品的表征模长会迅速上升，这与理论证明是一致的。因此，流行物品容易获得更高的分数，因为表征模长直接有助于模型预测。此外，不同的表征模长也损害了用户表征的训练。用户表征的梯度可以写为：

，流行物品的信号将影响其他物品的贡献，导致模型将陷入有偏见的预测结果。（如图右上）。可以看出，具有归一化的模型比没有归一化的模型产生更公平的结果。

如果我们关注预测分数变化情况（图左下），我们观察到，即使在训练后期（例如500），基于内积的MF预测分数和表征模长仍然处于上升而非收敛的状态，而与此同时性能持续下降（如图右下）。有趣的是，一旦利用归一化时，我们观察到了模型极快收敛，并且后续一直表现稳定。
为了进一步验证归一化的优势，我们测试推荐性能，变量为是否对用户或物品表征进行归一化（下表）。可以看出，具有双侧归一化（即对用户和物品的表征都进行归一化操作，记做Y-Y）的模型显著优于具有单侧归一化（即Y-N或N-Y）的模型；并且它们都超过了没有归一化的模型（N-N）。

3.3 归一化的缺陷

尽管上述理论与实验证明了归一化对于推荐系统性能有较强的帮助，然而，在我们实际研究发现，其存在一个比较明显的劣势，即对于温度系数的选取极其敏感。为了验证这一点，我们测试了不同选择下推荐性能的变化，范围从0.02到1，步长为0.02。结果如下图所示。纵坐标为相对最佳性能的效果，以满足不同数据集相互比较的目的。我们得出以下观察结果：

1）性能对高度敏感。即使是很小的波动（例如Amazon-Book在上从0.08变为0.12）也会导致性能大幅下降（例如10%）；

2）不同的数据集需要相当不同的。例如，当时，Amazon Book数据集达到最佳性能，但MoiveLens在时达到最佳性能。如果我们简单地将一个数据集（例如MoiveLens）中的最佳转移到另一个数据集中（例如Amazon Book），我们会得到相当差的性能（例如减少30%以上）。

3.4 温度系数的意义

根据上文所知，尽管归一化对推荐系统有较明显的优势，但对温度系数的高度敏感仍然限制其应用，因此我们进一步思考具有的性质：

3.4.1 避免梯度消失：

温度主要影响损失函数对于预测分数的梯度。为了方便起见，让符号记作由参数控制的实例的logit，具体表示为:

梯度可以写成：

上述可以理解为正样本logits之和() 和负样本logits之总和(1-)的乘积。当太小时，由于指数函数的爆炸性质，上的差异将被放大，并且正实例通常获得比负实例大得多的logits(\eg )，梯度会消失。相反，当太大时，不会表现出太大的差异。但由于RS的长尾性质，即负实例的数量远大于正实例，正logits的总和将非常小，梯度再次消失。

3.4.2 难负样本挖掘：

最近在对比学习中的一些工作揭示了的硬挖掘。在这里，我们借用了他们的想法，但在RS场景方面提供了更具洞察力的分析。如前所述，较小的的将放大样本间差异性。因此，那些具有较大的难负样本将具有极高的，从而对模型训练做出更多贡献。相反，较大的往往使模型对负样本一视同仁。

此属性极大地激励我们为用户提供。请注意，在典型的RS中，数据质量通常因用户而异。对于具有大量噪声反馈的用户来说，过于关注难负样本是不明智的，因为它们很可能是噪声样本。但对于那些有明确和充分反馈的用户来说，降低将是一个更好的选择，因为它可以带来更多信息样本，从而增强模型的收敛性和判别力。因此，继续保持固定的习惯不再是最理想的选择。最好提供细粒度的，以适应不同用户的不同强度。

四、方法

为了解决这个问题，在本节中，我们提出了Adap-，它能够自适应地自动调节推荐系统中的表征模长。根据上述理论分析，我们以满足以下两点目标：

自适应原则：温度系数应该是自适应的，以避免梯度消失。
细粒度原则：温度系数应当是用户个性化的，即用户的样本越难区分越应该使用更大的温度系数。

4.1 Adap-：实现自适应温度

根据引理，我们深入研究了使梯度值最大化的温度系数计算方式：

直接优化上式子存在复杂的计算（用户-物品相互影响），因此我们采用一个估计的方式进行近似计算。首先我们提出一个此目标满足的上界：

引理二: 令是由参数控制的实例的logit分数，如

，而且的下界为。我们有目标的下界为：

当下列条件成立时，梯度目标达到上限的最优值：

有了引理二的上界约束，我们进一步有：

引理三：令 (或者 ) 分别为所有样本的分布(或者正样本的分布). 令 (or )是由 (or ) 随机采样出的变量。假设分布和具有次指数尾，使得以下条件适用于一些

：

当 , 它可以近似为:

当接近时(附录证明了此假设的有效性），表达式可以简化为：

在这里，我们对分布做了一个假设，即和是收敛的，并且分布的尾部衰减至少与指数衰减一样快（衰减为）。该假设是有效并且符合的，因为次指数分布实际上很常见。它包含Guassian, exponential, Gamma, Pareto, Cauchy分布等。此外，工作[2]证明了所有有界随机变量都是次指数的。

事实上，在我们的实验中，我们总是观察到和收敛到一个特定的区域，具有相当小的和。此外，我们观察到两种分布通常具有非常接近的方差（参见文章附录）。这些观察结果验证了的近似表达式可以满足。

4.2 Adap-：实现自适应细粒度温度

根据原则二，我们为每个用户引入个性化温度，并借助Superloss(工作[3])的思来监督他们的学习。具体而言，Superloss的作用是根据每个用户的样本损失，并相应地自适应地调整温度值。它由一个损失感知项和一个正则化项组成：

根据SuperLoss特性，我们可以求解出其闭式解为：

其中代表Lambert-W函数，它是的反函数。正如目标所示，随着用户损失单调增加——损失较大的用户将获得更大的温度，以降低用户样本的置信度。同时，作为基线，将温度缩放到适当的区域。

五、实验

实验方面，我们主要是针对以下三个问题进行设计：

与其他策略相比，Adap-的表现如何？
我们的Adap-是否适应不同的数据集和用户？
与最先进的模型相比，表征归一化和自适应的模型在准确性和效率方面表现如何？

5.1 模型性能对比

实验可见，我们的模型策略可以在多种基准模型上取得性能提升，并且对于流行度偏差问题也能得到很好的缓解。

5.2 模型自适应性能

在本节中，我们利用我们的模型对不同“噪声数据”的适应性。采用了两种策略来向数据集添加噪声。1）根据每个用户的历史交互频率，我们以相同的比例添加了假正样本。2）将用户随机分为四组，给予各组依次添加假正样本（分别为10%，20%，30%，40%）。策略1专注于面对相同比例的噪声数据时的自适应性能（即全局适应性），而策略2专注于针对不同“噪声比”下各个用户性能差异（即局部适应性）。

针对全局自适应，我们提出的Adap-可以在各种噪音比例下超过超参grid search的结果。

同时对于局部自适应，我们记录各个组别下的分布情况，由图可知我们的策略确实可以在用户间实现细粒度的调整，即噪音比例越小，温度系数值越小；反之亦然。

5.3 与SOTA对比

最后，我们将模型与近两年SOTA模型进行时间与性能的统筹考量，由图可知，本模型均可实现较优的平衡，在时间复杂度不增加的情况下，效果达到最佳。

六、总结

在这项工作中，我们重点研究了推荐系统中表征模长。通过理论和实证分析，我们强调了表征归一化的重要性。我们还指出了仅仅做归一化存在的弊端。因此，我们提出了两个原则来指导的自适应学习。实验验证了我们的简单方法对于大量数据集都是有效的。最重要的是，我们的模型获得了一个自适应的、用户个性化的，而无需在不同的数据集之间重复搜索。

我们认为，全面理解归一化表征对于推荐系统社区的发展中是极其有益的。在未来，我们预计的进一步应用将解决CF的实际问题。我们希望将其推广到更多领域，而不仅仅是推荐。

参考文献

[1] Jiancan Wu, Xiang Wang, Xingyu Gao, Jiawei Chen, Hongcheng Fu, Tianyu Qiu, and Xiangnan He. 2022. On the Effectiveness of Sampled Softmax Loss for Item Recommendation. arXiv preprint arXiv:2201.02327 (2022).

[2] HenryWBlock and Zhaoben Fang. 1988. A multivariate extension of Hoeffding’s lemma. The Annals of Probability (1988), 1803–1820.

[3] Thibault Castells, Philippe Weinzaepfel, and Jerome Revaud. 2020. SuperLoss: A Generic Loss for Robust Curriculum Learning. In NeurIPS.

编辑：于腾凯

校对：邱婷婷