前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >RecSys2023 | 图协同过滤模型可复现性调研

RecSys2023 | 图协同过滤模型可复现性调研

作者头像
张小磊
发布2023-09-27 08:12:29
3090
发布2023-09-27 08:12:29
举报

TLDR: 本文对近年来的图协同过滤模型在经典和非常见的数据集上进行了复现,并对在非常见数据集上的性能表现从信息流(数据集的特性)的视角进行了解释。

论文:arxiv.org/abs/2308.00404 代码:github.com/sisinflab/Graph-RSs-Reproducibility

基于图神经网络模型(GNN)将用户和物品有效地建模为无向二部图,其极大地推动了推荐系统的发展。然而,许多基于图的原始工作往往采用基线论文的结果,而没有验证这些结果对所分析的特定配置的有效性。

本文的工作通过关注结果的可复制性来解决这一问题。本文在三个常见的基准数据集(Gowalla、Yelp 2018 和 Amazon Book)上成功复制了近期的六种图推荐模型(NGCF、DGCF、LightGCN、SGL、UltraGCN 和 GFCF)的结果。下表展示了在Gowalla、Yelp 2018和Amazon Book上对选定的基于图的推荐系统进行了可复制性研究的结果 。其中,还计算了本文进行的实验与原始实验之间的性能变化。可以看出这些模型与原始论文的性能差异几乎没有。

此外,还将这些图模型与传统的协同过滤模型进行了比较。下表展示了在Gowalla、Yelp 2018和Amazon Book上,基于图的协同过滤模型与非个性化(即参考)和经典的协同过滤方法进行了测试。虽然大部分基于图协同过滤的方法都处于领先优势,但有一些经典的协同过滤方法的性能也非常厉害。

随后,还将研究扩展到了两个新的数据集(Allrecipes 和 BookCrossing),这两个数据集在推荐模型的文献中很常见,但在基于图的协同过滤模型特定的文献中并不常见,其统计信息可参考下表。

基于图的协同过滤方法在Allrecipes 和BookCrossing上针对非个性化(即参考)和经典协同过滤方法进行了测试。黑体字和下划线分别表示最佳值和次优值。可以看出BookCrossing的结果由这些基线主导,而在Allrecipes中,MostPop脱颖而出。令人惊讶的是,在Allrecipes数据集上的排名显著不同 ,并且基于图的协同过滤的数学公式不足以解释这些结果。

如数据集统计表所示,用户和项目的平均节点度是区分每个数据集的主要方面之一。因此,本文决定对其模型性能可能产生的影响进行推理。检查数据集的拓扑特征可以发现,用户和项目的总数量和平均用户和项目度在不同的数据集上有所不同。这个观察结果可能表明在计算图中从节点到节点传输的信息量。然后根据数学背景,对结果进行三方面的分析,重点关注(i)用户的冷/暖度,(ii)喜欢的物品的流行度,以及(iii)用户的大小邻居和邻居的冷/暖度的影响。

如上图所示,一阶邻居表示用户从与之交互的物品中接收信息。换句话说,其表明了用户在平台上的活跃度;二阶邻居表示用户接收与相同物品交互的其他用户的信息。换句话说,这表明了物品的流行度对用户的影响;三阶邻居表示用户从参与协同交互的其他用户交互的项目中接收信息。也就是说,这是交互用户的活跃度对用户的影响的一个指标。

考虑到基于图的方法能够通过堆叠多层来提炼协作信号,本文提出了一种新的研究方法,将节点度重新解释为经过多次跳转后从邻居节点到用户节点的信息流。并根据上文提到的多阶影响对用户接收信息量的多少分为了4类用户,分别是小于25%,25%到50%之间,50%到75%之间以及大于75%。根据这些组用户对基于图协同过滤模型的性能进行了分析和解释。

比如,在3阶邻居中,对于BookCrossing数据集,与邻居相关的信息对结果没有显著贡献。同时,在Allrecipes中,最好的模型(UltraGCN, DGCF, 和LightGCN)在所有四个组别中表现出更多的一致性,这可以通过更均匀的结果分布 (四个小组的性能之间的差异更小)得到证明。然而,这种模式在NGCF、SGL和GFCF中并不明显 ,它们在四个组别中表现出更不同的范围。另外,发现2跳信息(结合用户活跃度和项目流行度)是协同过滤行为的有效指标,其可以提高推荐性能。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-26 08:00,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与推荐算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档