前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SIGIR'21「微信」利用元网络学习冷启动商品ID Embedding

SIGIR'21「微信」利用元网络学习冷启动商品ID Embedding

作者头像
秋枫学习笔记
发布2022-09-19 11:28:36
9900
发布2022-09-19 11:28:36
举报
文章被收录于专栏:秋枫学习笔记

Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks https://arxiv.org/pdf/2105.04790.pdf SIGIR 2021

1. 背景

本文针对如何在冷启动中学习到更好的id embedding提出对应的元学习网络。将冷启动产生的id embedding称为冷id embedding。冷启动中的id embedding存在以下两个问题

  • 冷id embedding和后续的深度推荐模型存在较大的差别,冷启动的商品数量太少,导致学到的embedding是有偏的,不充分的。
  • 冷id embedding容易受到噪声的影响,同样由于冷启动的商品数据太少,导致一点很小的噪声都会对embedding的训练产生很大的影响。

采用两个方法解决上述问题

  • Meta Scaling Network加速模型对冷id embedding的拟合
  • Meta Shifting Network缓解噪声的影响

2. 方法

如图所示为本文的主要网络结构,本文主要针对在冷启动过程中,商品id embedding学习的不好的情况,提出了两个元学习网络来帮助冷 id embedding进行warm up。

2.1 定义

商品的特征embedding

\boldsymbol{X}_{v_{i}}=\left\{x_{v_{i}}^{1}, \cdots, x_{v_{i}}^{n}\right\}

,其中

X_{v_i}^l

表示第

v_i

个商品的第l和特征。

v_i

表示商品i的id embedding。

u_j

表示第j个用户的id embedding,

\boldsymbol{X}_{u_{j}}=\left\{x_{u_{j}}^{1}, \cdots, x_{u_{j}}^{m}\right\}

表示用户的其他特征的集合。整体模型可以表示为

\hat{y}=f\left(v_{i}, \boldsymbol{X}_{v_{i}}, \boldsymbol{u}_{j}, \boldsymbol{X}_{u_{j}} ; \theta\right)

。和商品交互的用户的集合有助于最终结果的预测,因此,作者还考虑用和当前商品交互过的用户的集合

U(v_i)

来增强商品的id embedding的学习。根据集合

U

的大小是否为0可以分为冷启动阶段和warm-up阶段,这里作者关注的是warm up阶段。冷启动阶段是完全没有交互数据,warm-up阶段是进行了一段时间的交互,有部分少量的交互数据。

2.2 通用初始ID Embedding

一方面,随机初始化的id embedding包含的有用信息少,会严重影响冷启动推荐模型的性能;另一方面,随机初始化会使后续的元学习网络训练困难。因此,作者采用商品的id embedding的均值来作为冷启动商品的初始embedding

2.3 两个元网络

2.3.1 Meta Scaling Network

文献[1]表明,冷id embedding和暖id embedding在特征空间中的表示是不同的,他们之间存在关系,因此作者希望通过元缩放网络来建模cold id embedding和warm id embedding之间的关系。相似的商品具有相似的warm id embedding,并且具有相似的“从冷到暖”的关系。冷启动的商品的交互数据是非常有限的,因此采用他们的交互数据来衡量相似性是不可靠的,但是商品的固有特征是稳定存在的(生产日期,类型等),因此作者采用商品的特征来衡量商品之间的相似性,冷暖阶段的id embedding之间的关系可以和商品的特征关联上。本文所提的元缩放网络公示如下,其中商品的特征

X_{v_i}

作为输入,w为可学习参数。冷id embedding向暖id embedding的转换可以表示为

v_i^{warm}=v_i\odot \tau_{v_i}^{scale}

相当于从商品特征中学习到缩放系数,然后用缩放系数对冷id embedding进行缩放

\tau_{v_{i}}^{s c a l e}=h\left(\boldsymbol{X}_{v_{i}} ; w_{s c a l e}\right), \tau^{s c a l e} \in \mathbb{R}^{k}

2.3.2 Meta Shifting Network

冷启动的商品的embedding的学习容易受到噪声的影响,因此利用上述缩放网络将冷id embedding转换为暖 id embedding,其中同样是包含噪声的。利用和商品交互的用户的embedding的均值能够一定程度上缓解噪声的影响[2]。因此这里需要用到上面提到的集合

U(v_i)

,网络可以表示为下式,集合U的大小可能是不同的,因此作者采用

\mathcal{G}

函数来整合他们,比如求均值。

\tau_{v_{i}}^{\text {shift }}=g\left(\mathcal{G}\left(\boldsymbol{U}\left(v_{i}\right)\right) ; w_{\text {shift }}\right), \tau^{\text {shift }} \in \mathbb{R}^{k}

因此最终的warm id embedding可以表示为

v_{i}^{\text {warm }}=v_{i} \odot \tau_{v_{i}}^{\text {scale }}+\tau_{v_{i}}^{\text {shift }}

shifting网络可以认为是利用商品周围的邻居,即用户embedding来使得生成的表征更加稳定

2.4 整体流程

本文针对的是冷启动商品在warm up阶段的优化方案。首先训练好了一个推荐模型,虽然该模型在已有的数据上具有较好的性能,但是对于新来的商品,会存在冷启动的问题,冷 id embedding无法很好的用于后续的推荐模型;然后,是训练两个元网络去warm up冷id embedding。固定推荐模型中原有的参数,然后利用旧的商品来模拟冷启动的过程,从而训练两个网络。

训练好的id embedding layer可以表示为

\phi_{id}^{old}

,生成的id embedding表示为

v

;模拟冷启动过程,构造新的id embedding layer表示为

\phi_{id}^{new}

,生成的embedding表示为

\hat{v}

。利用冷启动的id embedding得到预测概率为

\hat{y}^{cold}=f\left(\hat{v}_{i}, \boldsymbol{X}_{v_{i}}, \boldsymbol{u}_{j}, \boldsymbol{X}_{u_{j}} ; \theta\right)

,交叉熵损失函数为

\mathcal{L}^{cold}

并且用warm后的商品id embedding得到

\hat{y}^{warm}=f\left(\hat{v}_{i}^{warm}, \boldsymbol{X}_{v_{i}}, \boldsymbol{u}_{j}, \boldsymbol{X}_{u_{j}} ; \theta\right)

,交叉熵损失函数为

\mathcal{L}^{warm}

通过最小化warm loss来优化两个元网络,通过优化cold loss来优化id embedding layer。

3. 结果

image.png

4. 总结

本文的总体方法看下来,简单总结如下:本文所提元网络主要用于优化商品的id embedding,通过商品的特征学习到系数,用该系数将商品的冷id embedding转换为暖 id embedding;并且利用商品相关的用户的id embedding来使得学习到的商品id embedding更加稳定。

5. 文献

[1] Zhihong Chen, Rong Xiao, Chenliang Li, Gangfeng Ye, Haochuan Sun, and Hongbo Deng. 2020. ESAM: Discriminative Domain Adaptation with NonDisplayed Items to Improve Long-Tail Performance. In SIGIR. [2] Yudan Liu, Kaikai Ge, Xu Zhang, and Leyu Lin. 2019. Real-time Attention Based Look-alike Model for Recommender System. In KDD. 2765–2773

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2.1 定义
  • 2.2 通用初始ID Embedding
  • 2.3 两个元网络
    • 2.3.1 Meta Scaling Network
      • 2.3.2 Meta Shifting Network
      • 2.4 整体流程
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档