前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KDD2024 | CLeaR: 揭示对比推荐系统易受毒害攻击的脆弱性

KDD2024 | CLeaR: 揭示对比推荐系统易受毒害攻击的脆弱性

作者头像
张小磊
发布2024-06-07 15:00:36
1550
发布2024-06-07 15:00:36
举报
文章被收录于专栏:机器学习与推荐算法

TLDR: 本文发现了对比学习引入推荐系统的意外漏洞,并展示了如何通过调整谱值来增强推荐系统中的中毒攻击效果。

论文:https://arxiv.org/abs/2311.18244 代码:https://github.com/CoderWZW/ARLib

今天跟大家分享一篇发表在KDD2024上的揭示对比学习推荐方法脆弱性的文章。该文首先通过实验发现基于对比学习的推荐系统更容易受到旨在推广个别项目的中毒攻击,并通过分析将这种脆弱性归因于对比损失所导致的样本表示分散现象。此外,通过理论和实验证明,作者发现优化这种对比损失会有利于平滑样本表示的谱值。基于以上发现,作者揭示了一种针对对比学习推荐的潜在中毒攻击,名为CLeaR。CLeaR包含一个双目标框架:一方面是诱导更平滑的谱值分布以促进对比损失固有的表示分布分散效应;另一方面是直接提高目标项目的可见性。通过在四个数据集进行大量实验,该文验证了所提出攻击模型的潜在威胁。

1. 引言

近年来,对比学习作为一种新的自监督学习范式展示了其在各个领域的巨大潜力。当应用于推荐系统时,对比学习已被广泛研究并证明可有效提高推荐质量 。此外,它在该领域的运用表现出了显著的稳健性,即使在存在噪声数据场景的情况下,它也能保持推荐准确性。然而值得注意的是,现有的研究主要集中在基于对比学习的推荐系统的整体鲁棒性上,而忽略了影响单个项目的漏洞。在推荐系统领域,中毒攻击可以专注于单个项目,通过策略性地注入恶意配置文件来实现对推荐结果的蓄意操纵,其最终目的是扩大目标项目的曝光度。由于中毒攻击十分普遍,并且在许多现实世界的推荐系统中构成了真正的威胁,因此作者自然而然地产生了一个问题:基于对比学习的推荐系统能否有效抵御针对单个目标项目的中毒攻击?

因此,作者做了一些初步实验,比较了推荐模型在使用和没有使用对比学习时的性能区别。在实验中,作者使用模型 LightGCN 作为推荐编码器,并评估了四种基于对比学习的推荐方法:SSL4Rec 、SGL 、SimGCL 和 XSimGCL。为了探索中毒攻击的影响,作者采用了一种常见的攻击方法 RandomAttack,将随机构建的恶意用户配置文件注入公共数据集。实验结果如图1所示,尽管基于对比学习的推荐方法能够在整体推荐准确率上保持稳定(以Recall@50衡量),但它们都更容易受到旨在增加目标单品曝光度的中毒攻击影响(以Hit Ratio@50衡量)。这一结果意味着基于对比学习的推荐对于旨在提升单个项目排名的中毒攻击是脆弱的。

为了找出基于对比学习的推荐系统易受毒害攻击的根本原因,作者继续研究了非对比学习和基于对比学习的推荐方法所学习到的表示在嵌入空间中的分布模式。通过可视化表示的分布,作者发现对比学习的目标函数 InfoNCE 是导致脆弱性的核心因素。在没有对比学习的情况下,样本表示表现出局部聚类特征,用户和热门商品倾向于聚集,阻碍冷门商品接触更多用户。相反,对比学习的加入会在任意两个节点之间产生排斥力,从而抑制用户和热门商品的聚集,并导致全局分散的表示分布。因此,在对比学习的刺激下,非热门商品可以更容易进入推荐列表。由于中毒攻击的目标商品往往不受欢迎,对比学习成为增加目标商品曝光度的助推器。这一固有缺陷引发了一个新问题:是否存在潜在的中毒攻击,比当前的中毒攻击对基于对比学习的推荐系统构成更大的威胁?

对此,作者也给出了肯定的回答。鉴于对比学习的目标是相对于主要推荐目标的辅助任务,联合优化的表示分布(即推荐损失引起的吸引力和对比学习损失引起的排斥力)可能不够均匀,无法满足攻击者的标准。因此,潜在的对手可能会选择放大表示分布的分散度,确保用户在嵌入空间中分布得更广泛。这种分散性的增加创造了一个有利的攻击环境,为目标项目提供了接触更多不同用户的机会。基于上述想法,作者从理论和经验上证明了对比学习的微调与表示的平滑谱相关。这一发现支持了这样一种观点,即攻击者可以通过促进更平滑的谱值分布来促进对比学习损失的优化,从而增加分散度。因此,作者提出了一个潜在的中毒攻击模型CLeaR来揭示针对基于对比学习的推荐的毒化机制,旨在深化对基于对比学习的推荐系统鲁棒性的理解并保护它们免遭操纵。

2. 分析中毒攻击如何影响基于对比学习的推荐

如图2所示,Epinions 数据集上样本的表示分布可视化结果揭示了在没有和有对比学习的情况下的两种不同模式:

  • 局部聚类(无对比学习):在没有对比学习的情况下,样本表示表现出局部聚类的特征,用户和热门商品倾向于聚集,阻碍冷门商品接触更多用户。
  • 全局分散(有对比学习):相比之下,对比学习的加入会在任意两个节点之间产生排斥力,从而抑制用户和热门商品的聚集。因此,有对比学习的推荐(SSL4Rec、SGL、SimGCL 和 XSimGCL)表现出更均衡的分布。因此,这种分布使热门商品和冷门商品更接近。

受到SimGCL论文中分析的启发,作者从理论上解释了这两个模式出现的原因:BPR 损失导致局部聚类:通过分析BPR损失的公式,梯度更新方向 () 将用户拉向正样本 ,同时远离负样本 。鉴于推荐数据的长尾分布特征,受欢迎的物品被采样的可能性更高。因此,用户更倾向于被热门物品吸引,导致用户与热门物品之间出现聚类效应。相反,冷门物品通常被视为负样本,并被推离用户聚类。

对比学习损失导致全局分散:分析对比损失可以看出,最小化对比损失涉及最大化 和 之间的相似性,同时最小化 和 之间的相似性。全局分散可以归因于公式的第二项:对比损失优化过程可以视为将 和 互相推开。因此,对比损失本质上会在表示之间产生自然的排斥效应,使得表示分散。

3. 从Spectral角度分析对比损失

作者首先通过推导得到了对比损失的上界。Proposition 1. 给定在增强视图上学习到的表示 和 以及相应的奇异值 和 ,对比损失的上界由以下公式给出:

由于最小化对比损失等同于最小化该上界,命题1表明,对比损失的最小化可以转化为一个双目标优化问题:最小化第一项 ,即最大的奇异值乘积;最大化第二项 ,即奇异值乘积之和。这种方法旨在减少最高奇异值的相似性,同时增强 和 之间奇异值的整体相似性。这样的最小化策略倾向于产生更平滑的奇异值分布。接下来,作者通过实验证明基于对比学习和不基于对比学习的推荐模型所得奇异值的差异。

图3展示了不基于对比学习和基于对比学习的推荐的奇异值分布。两种分布均遵循长尾分布。然而,可以观察到显著的差异:在两个数据集上,LightGCN 曲线显得更尖锐,而对应的基于对比学习的推荐方法的曲线保持平滑。前面的理论分析可以解释这一现象,即对比损失的优化倾向于减少最大奇异值,同时促进奇异值的平滑分布。

4. 方法:CLeaR

由于对比损失的优化可以促进光谱值分布的平滑性,基于这个发现,作者所提出的攻击模型基本思想是希望通过额外促进表示中的光谱值平滑化,从而进一步分散用户表示,使得中毒攻击变得更强大。

作者将中毒攻击定义为双层优化问题:内部优化是基于真实用户交互和固定的恶意用户交互集推导推荐模型细节。另一方面,外部优化是调整恶意用户与物品之间的交互,其目标是增加目标物品在更多用户推荐列表中的出现。双层优化过程由以下公式定义:

其中, 是推荐模型的函数, 和 分别是最优的用户表示和物品表示, 是用于评估攻击效用的损失函数。

在双层优化框架下,作者提供了CLeaR的白盒实现。这种白盒实现方法也可以通过集成代理模型从而适应黑盒场景。图4展示了一个简单的概述,可以看出涵盖以下部分。

  1. 分散促进目标:该目标旨在促进表示的光谱值更加平滑,从而有助于对比损失的优化,并在整个向量空间内实现全面的分散。在这种情况下,目标物品自然会获得更多机会以优化与更广泛用户的接近度。为了达到这个目标,作者提到一种常见方法:首先对表示 进行分解,通过SVD获取 ,然后将光谱值 对齐为平滑且平坦的分布。这种分散促进目标 可以表述为:

其中, 计算两个分布的相似性, 是幂律分布, 和 是超参数。

然而,可以注意到这种方法存在局限性,因为获取矩阵的光谱非常耗时且SVD的反向传播不稳定,常常导致数值不准确。为了解决这一问题,作者采用了一种近似方法,直接计算近似表示 ,从而绕过了SVD过程。改变后的目标函数的公式如下:

  1. 排名促进目标:分散促进目标旨在增加表示的分散性。从用户的角度来看,这种分散仅为所有物品建立了一个公平的竞争环境,降低了目标物品被包含在用户推荐列表中的难度。然而,需要注意的是,这种均衡并不能保证目标物品在推荐优先级上超越其他物品。因此,有必要制定一个专门的目标,以提高目标物品在用户推荐中的排名,促进其在用户偏好列表中的出现。借鉴最新的推荐系统目标攻击方法,作者将常用的CW损失作为排名提升目标,旨在找到推荐列表中的最后一个物品,并增加目标物品超过该最后一个物品的概率。CW损失的公式如下:

其中, 是为用户 推荐的物品集合。最终,我们结合两个促进目标,得到攻击损失 ,如下所示:

其中, 是用于调整 和 之间平衡的权重。基于上述描述,CLeaR的攻击算法如下:

5. 实验

本文中作者做了大量的实验验证了CLeaR在各方面的性能,包括攻击效果,注入恶意用户比例的影响,不同组件对攻击的影响,对黑盒攻击的适应能力和参数敏感度等。在此主要呈现部分实验结果。

首先是攻击性能的比较,可以看出来CLeaR在绝大多数情况下表现出最强的攻击效果。

然后作者讨论了注入恶意用户比例对攻击的影响,由下图可知,随着注入用户的增多,CLeaR的攻击效果会变得更强。

另外,作者展示了CLeaR攻击其他基础推荐模型(GMF和NGCF)的攻击效果,如下图,从图中可以看出CLeaR对于这些没有使用对比学习的基础推荐模型也具有更强的攻击效果。

作者还讨论了文中的白盒攻击方法可以通过集成代理模型的方式适应于黑盒攻击场景,在黑盒的场景下,CLeaR的攻击效果也表现得很好。

作者还汇报了多个模型的每一次攻击实际运行时间,如下表。

6. 总结

在本研究中,作者发现基于对比学习的推荐方法容易受到专门推广目标物品的中毒攻击的影响。作者还探讨了这种脆弱性的根本原因,并证明对比损失引起的嵌入分布的全局分散是核心因素。此外,作者引入了一种新颖的攻击方法CLeaR,该方法操纵表示的光谱值分布以使其更加平滑,同时优化目标物品在用户偏好列表中的可见性。在四个真实数据集上进行的广泛实验展示了CLeaR潜在的威胁。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与推荐算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 引言
  • 2. 分析中毒攻击如何影响基于对比学习的推荐
  • 3. 从Spectral角度分析对比损失
  • 4. 方法:CLeaR
  • 5. 实验
  • 6. 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档