前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >盘点5类推荐系统中图学习解决冷启动问题的方法

盘点5类推荐系统中图学习解决冷启动问题的方法

作者头像
圆圆的算法笔记
发布2022-12-19 20:58:06
发布2022-12-19 20:58:06
1.1K0
举报

在之前的文章长尾预测效果不好怎么办?试试这两种思路中,我曾经介绍了两种解决推荐系统中长尾、冷启动问题的方法。其中,图学习解决冷启动和长尾问题,是业内目前研究非常多的一个方向。通过构造复杂的关系图,利用邻居节点的信息帮助中心冷启动节点的学习,可以大幅提升冷启动样本的预测效果。今天对图学习解决冷启动问题这个方向进行了详细整理,整理了5种类型7篇顶会工作,帮助大家系统性理解如何利用图学习解决推荐系统冷启动问题。

1

融合邻居节点预训练表示

Learning Graph Meta Embeddings for Cold-Start Ads in Click-Through Rate Prediction(SIGIR 2021)通过对对邻居节点预训练表示的融合生成更好的冷启动节点表示。整体思路先正常训练模型得到非冷启动广告的embedding,再通过邻居embedding的聚合得到中心冷启动节点的embedding。

对于新ad,使用属性特征和图学习生成一个合理的embedding。根据属性重合度构造新ad的相似邻居,并按照属性的重合度排序,得到最相似的几个ad。然后利用GAT进行new ad和其邻居的信息融合,再用全连接生成新ad的向量表示,作为id embedding。这个过程相当于根据属性找到与新ad最相似的旧ad,用旧ad的信息丰富新ad的embedding。在训练方法上,先用旧ad训练一个正常的ctr预估模型,然后固定ctr模型的参数,单独训练新ad表示生成部分的参数,利用meta-learning的方法更新模型参数。

2

使用图扩充用户行为

Graph Intention Network for Click-through Rate Prediction in Sponsored Search(SIGIR 2019)针对冷启动用户历史行为稀疏的问题,提出使用商品图进行历史行为扩充,让冷启动用户也有丰富的历史行为数据,进而最大程度发挥历史行为序列建模的能力。

CTR预估中经常需要对历史行为建模提升效果(比如用户历史点击过的商品),但是长尾用户的历史行为比较稀疏。因此这篇文章提出,利用点击行为构造商品和商品之间的图,利用这个图补充历史行为信息。通过商品-商品图,可以挖掘出和当前商品高度相关的其他商品,这些商品虽然没有直接的点击行为,但由于和点击过的商品高度相关,因此用户点击这些商品的概率可能也很高。通过这种基于图扩展信息的方法,解决长尾用户历史行为稀疏的问题。

3

邻居节点信息预测中心节点表示

冷启动样本一个比较大的问题是embedding训练不充分。在STAR-GCN: Stacked and Reconstructed Graph Convolutional Networks for Recommender Systems(IJCAI 2019)一文中利用邻居节点的信息来预测冷启动节点的embedding。

具体做法是借鉴了BERT中Mask Language Model的思路,会随机mask20%的节点embedding(被设置为全0的向量),然后使用一个辅助的网络融合邻居节点的信息预测中心节点embedding,在模型的训练过程中引入一个embedding reconstruction的辅助任务。这样在遇到冷启动样本时,可以初始化其embedding为全0向量,然后通过图学习汇聚邻居节点的信息,生成一个合理的embedding。

Pre-Training Graph Neural Networks for Cold-Start Users and Items Representation(WSDM 2021)中也提出了类似的方法,核心也是用邻居节点预测中心节点的embedding。先用matrix factorization-based model预训练在充足的样本上训练得到非冷启动样本的embedding。然后训练一个图模型,汇聚邻居节点的embedding,预测目标节点的预训练embedding。这个过程会在图中进行多跳邻居采样,这样即使是冷启动样本,也能通过多跳采集到足够多的邻居样本。

4

利用图邻居节点进行信息增强

与利用邻居节点生成中心节点embedding的方法不同,这类方法将邻居的信息作为一个补充,用一个单独的分支输入到模型中。Hers: Modeling influential contexts with heterogeneous relations for sparse and cold-start recommendation(AAAI 2019)是这类方法的一个典型工作。这篇文章首先构造了user到user的关系图以及item到item的关系图,以此建立冷启动user或item与其他user和item之间的关系。对于每个样本的user和item,利用user-user图和item-item图采样邻居信息进行融合,生成一个context embedding,作为一个分支一同输入到模型中辅助后续预测。

5

汇聚邻居多种信息带来信息增益

这类方法会在图中增加除了主体外的属性特征,通过对这些属性信息的汇聚为冷启动样本带来信息增益。例如在GIFT: Graph-guIded Feature Transfer for Cold-Start Video Click-Through Rate Prediction(CIKM 2022)这篇文章中,主要解决的是视频推荐的冷启动问题。由于相似属性(如作者)的视频具有相似受众,因此通过属性特征建立了视频和视频之间的关系。同时图中也会增加关于浏览量等信息的节点。此外,也利用了多模态embedding计算视频之间的距离,为高相关性视频建立边的连接。

在构建完上述视频+多种属性特征的大图后,将一跳(属性信息)和二跳(相似视频)信息引入到中心节点的学习,带来了额外信息增益。

Pre-Training Graph Neural Networks for Cold-Start Users and Items Representation(WSDM 2021)中通过也引入了user和item的属性特征构建图,除了user-item的交互信息外,将user和item的各个属性作为图中节点,捡来user/item与这些属性节点的关系。通过属性节点可以多跳建立实体之间更广阔的联系。对于冷启动缺少交互数据的user和item,也能通过属性节点与非冷启动的user或item建立联系。通过图神经网络,将中心节点的user/item邻居以及属性信息都进行汇聚。

6

总结

本文梳理了推荐系统中,使用图学习解决冷启动问题的5种方法7篇顶会工作。利用图解决冷启动问题,核心还是在于哪些图中的信息可以用来提供额外的信息,来弥补冷启动样本数据稀疏导致的训练不充分问题。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 圆圆的算法笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档