前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >推荐系统之用户多兴趣建模(一)

推荐系统之用户多兴趣建模(一)

作者头像
枫桦
发布2022-12-17 16:55:36
7860
发布2022-12-17 16:55:36
举报
文章被收录于专栏:AI算法札记AI算法札记

在之前的文章中,我们将2022年已公布的AI顶会(含SIGIR/KDD/WSDM/ICDE/CIKM、RecSys/WWW、ICML/ICLR/ACL/NAACL/AAAI/IJCAI等) 中推荐系统相关论文梳理了一遍,具体可以参考公众号历史文章。

从本文开始,对推荐系统的各个研究方向进行一些梳理。本文梳理用户多兴趣建模方向的一些经典论文。

1. 概述

推荐系统的“使命”是解决信息过载的问题,互联网的蓬勃发展,每时每刻都会产出大量的信息,其载体涉及视频、图像、文本等各种形式。在纷繁复杂的信息中,我们如何获取自己感兴趣的信息成了一个难题。如果我们明确清楚自己的兴趣,则可以通过搜索的方式,比如我们想买手机,可以直接在淘宝或者京东 (此处淘宝、京东快付广告费)搜索手机或者xx手机等关键词。然而,很多时候,我们未必知道自己的兴趣,也不清楚是否有相关的商品,就比如蒸蛋器,在见到这个产品之前,我真的不知道有,而且还那么便宜。那么面对购物网站为数众多的商品,我们如何选择呢?理论上推荐系统的产生就是解决该问题。

然而不幸的是,信息茧房问题随之而来,用户发现,经常是自己点击、购买了什么,淘宝等平台就推荐什么,体验较差。那么如何更好的理解用户的兴趣呢,多兴趣是一个方向,尽管目前做的还不是那么尽如人意,理论上,多兴趣配合多样性策略 (比如MMR、DPP等),以及E&E(利用&探索)机制,是可以提升推荐的多样性和发现性,更好的满足用户兴趣,较好的缓解信息茧房现象。本文我们将梳理用户多兴趣建模方向的一些经典论文。

2. 用户多兴趣建模

MIND

MIND[1],基于动态路由技术的用户多兴趣表达,阿里于2019年发表在CIKM。

从idea角度来看,MIND结合了Youtube DNN和MaxMF,并对其不足进行改进,引入Hinton的胶囊网络来实现多兴趣提取层。相比我在《从思考论文idea(鱼)到学习北大工行通过迁移发顶会(渔)》一文中介绍的idea方法,该文引用了相关工作。

在此之前的召回算法更多关注如何精准的表示用户和商品,从而精确建模用户和商品的关系。本文则考虑用户的多峰兴趣分布,使用多个用户向量表达用户的不同兴趣,既建模了用户的多峰兴趣,又合理控制了模型的复杂度,在淘宝的业务效果也非常惊艳。

该模型主要包括两部分,多兴趣抽取层和标签感知注意力层 (Embedding层不再赘述)。多兴趣提取层利用动态路由将用户的历史行为自适应地聚合到用户表示向量中,以多个向量表达用户兴趣的不同方面;标签感知注意力层用来指导训练过程,每个用户挑选一个与其下一次点击行为最相似的兴趣进行训练。在线服务过程中,则将生成的多个兴趣向量用于召回过程。

DMIN

DMIN[2],用于点击率预估的深度多兴趣网络,阿里于2020年发表在CIKM。

一些现有的研究基于用户历史行为序列对用户表示进行建模,以捕捉动态和不断变化的兴趣。我们观察到用户通常存在多个兴趣,并且潜在的主导兴趣由行为表达,潜在主导兴趣的转换导致行为的变化。因此,建模和跟踪潜在的多重兴趣将是有益的。在本文中,我们提出了一种名为深度多兴趣网络 (DMIN) 的新方法,用于对用户的潜在多兴趣进行建模,以完成点击率预测任务。

具体来说,我们设计了一个使用Multi-head Self-Attention的行为细化层来捕获更好的用户历史项目表示,然后应用多兴趣提取器层来提取多个用户兴趣。行为细化层是通过Multi-head Self-Attention来优化用户行为序列的商品表示,可以更好的保持上下文序列信息和捕获序列中元素之间的关系。在多兴趣提取层,使用Multi-head Self-Attention在优化后的序列中提取多兴趣。

ComiRec

ComiRec[3],可调控的多兴趣推荐框架,阿里于2020年发表在KDD。

我们将推荐系统形式化为一个序列推荐问题,旨在预测用户可能与之交互的下一个项目。最近的工作通常从用户的行为序列中学习一个用户表征。但是,统一的用户表征并不能反映用户在一段时间内的多种兴趣。

在本文中,我们提出了一种用于序列推荐的新型可调控多兴趣框架,称为 ComiRec。我们的多兴趣模块从用户行为序列中捕获多个兴趣,可用于从大规模商品池中检索候选商品,然后将这些商品输入聚合模块以获得整体推荐结果,聚合模块可以利用可控因素来平衡推荐的准确性和多样性。

从形式上看,这篇相当于MIND+MMR,聚合模块调控就是类似MMR的公式。

Disentangled Self-Supervision in Sequential Recommenders

Disentangled Self-Supervision in Sequential Recommenders[4],隐空间自监督和意图解耦,阿里、清华于2020年发表在KDD。

序列推荐通常采用seq2item的训练策略,以用户的历史行为序列作为输入、用户的下一个行为作为标签来训练模型。然而,seq2item策略通常会产生非多样化的推荐列表。在本文中,作者希望模型基于用户的历史行为,去学习未来的行为序列,而不单单是下一个行为。该过程面临两个挑战: 首先,多个行为的未来序列比单一的下一个行为更难预估,并且由于在未来的序列中可能存在冗余的监督信号(例如相同意图的多次点击),因此逐个预估用户未来行为是低效的;其次,未来的行为序列可能涉及多个意图,并非所有意图可以从历史行为序列中预测。

为了应对这些挑战,我们在本文中提出了一种新颖的seq2seq训练策略。seq2seq 训练策略与标准的seq2item训练策略并行执行,并通过进一步挖掘来自整个未来序列的监督信号来补充后者。seq2seq 策略采用了隐空间自监督和意图解耦的思想来解决上述挑战。首先,seq2seq 训练策略是在隐空间中执行自监督,而不是在数据空间中,即seq2seq 训练策略要求模型在给定历史序列表示的情况下预测未来子序列的表示,避免了单独预测未来序列中的所有行为,并使得seq2seq的训练过程更容易收敛。其次,通过在单头注意力的SASRec后增加意图解耦层,设计了一个序列编码器,可以推断和解耦给定行为序列所反映的潜在意图。解耦编码器输出给定行为序列的多个表示,每个表示表征了与不同潜在类别相关的用户意图,这样就可以使用意图相关的子序列对构造seq2seq训练样本。

Octopus

Octopus[5],用于生成推荐候选的全面且弹性的用户表示,微软、中科大于2020年发表在SIGIR。

这篇论文没找到,主要基于微软官网的摘要和[6]进行解读。

候选生成是推荐系统的一项关键任务,从两个角度来看,这在技术上具有挑战性。一方面,推荐系统需要全面包含用户感兴趣的候选对象,而典型的深度用户建模方法会将每个用户表示为一个单一的向量,难以捕捉用户的不同兴趣。另一方面,为了实用性,候选生成过程需要既准确又高效。虽然现有的“多通道结构”,如记忆网络,更能代表用户的不同兴趣,但它们可能会带来大量不相关的候选,并导致时间成本的快速增长。因此,以实用的方式全面获取用户感兴趣的项目仍然是一个棘手的问题。

在这项工作中,提出了一种新颖的个性化候选生成范式 Octopus,该范式以其全面性和弹性而著称。与那些传统的“多通道结构”类似,Octopus 还生成多个向量,以全面表示用户的不同兴趣。然而,Octopus 的表示函数是以高度弹性的方式制定的,其规模和类型是根据每个用户的个人背景自适应地确定的,可以为不同用户学习不同数量的兴趣向量。因此,它不仅可以全面识别用户感兴趣的项目,还可以排除不相关的候选项目,有助于保持可行的运行成本。首先,初始化多个通道向量,为了使每个兴趣向量召回的商品差异较大,Octopus会在训练时保证通道向量之间的正交性。Octopus会计算用户历史中的每个商品与通道向量的注意力权重,并将商品放入权重最大的通道中,该通道被激活。在每个被激活的通道中,通过注意力权重聚合商品的向量。模型只输出聚合后的商品向量,通道激活的个数就是用户兴趣向量的个数。Octopus还提出了两种方法让每个兴趣向量召回不同的商品数量。

3. 参考文献

[1] Multi-Interest Network with Dynamic Routing for Recommendation at Tmall

[2] Deep Multi-Interest Network for Click-through Rate Prediction

[3] Controllable Multi-Interest Framework for Recommendation

[4] Disentangled Self-Supervision in Sequential Recommenders

[5] Octopus: Comprehensive and Elastic User Representation for the Generation of Recommendation Candidates

[6] 总结下自己做过的深度召回模型

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-08-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法札记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DMIN
  • ComiRec
  • Octopus
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档