SIGIR'21「微信」利用元网络学习冷启动商品ID Embedding

秋枫学习笔记

发布于 2022-09-19 11:28:36

9900

发布于 2022-09-19 11:28:36

文章被收录于专栏：秋枫学习笔记

Learning to Warm Up Cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks https://arxiv.org/pdf/2105.04790.pdf SIGIR 2021

1. 背景

本文针对如何在冷启动中学习到更好的id embedding提出对应的元学习网络。将冷启动产生的id embedding称为冷id embedding。冷启动中的id embedding存在以下两个问题：

冷id embedding和后续的深度推荐模型存在较大的差别，冷启动的商品数量太少，导致学到的embedding是有偏的，不充分的。
冷id embedding容易受到噪声的影响，同样由于冷启动的商品数据太少，导致一点很小的噪声都会对embedding的训练产生很大的影响。

采用两个方法解决上述问题：

Meta Scaling Network加速模型对冷id embedding的拟合
Meta Shifting Network缓解噪声的影响

2. 方法

如图所示为本文的主要网络结构，本文主要针对在冷启动过程中，商品id embedding学习的不好的情况，提出了两个元学习网络来帮助冷 id embedding进行warm up。

2.1 定义

商品的特征embedding

\boldsymbol{X}_{v_{i}}=\left\{x_{v_{i}}^{1}, \cdots, x_{v_{i}}^{n}\right\}

，其中

X_{v_i}^l

表示第

v_i

个商品的第l和特征。

v_i

表示商品i的id embedding。

u_j

表示第j个用户的id embedding，

\boldsymbol{X}_{u_{j}}=\left\{x_{u_{j}}^{1}, \cdots, x_{u_{j}}^{m}\right\}

表示用户的其他特征的集合。整体模型可以表示为

\hat{y}=f\left(v_{i}, \boldsymbol{X}_{v_{i}}, \boldsymbol{u}_{j}, \boldsymbol{X}_{u_{j}} ; \theta\right)

。和商品交互的用户的集合有助于最终结果的预测，因此，作者还考虑用和当前商品交互过的用户的集合

U(v_i)

来增强商品的id embedding的学习。根据集合

的大小是否为0可以分为冷启动阶段和warm-up阶段，这里作者关注的是warm up阶段。冷启动阶段是完全没有交互数据，warm-up阶段是进行了一段时间的交互，有部分少量的交互数据。

2.2 通用初始ID Embedding

一方面，随机初始化的id embedding包含的有用信息少，会严重影响冷启动推荐模型的性能；另一方面，随机初始化会使后续的元学习网络训练困难。因此，作者采用商品的id embedding的均值来作为冷启动商品的初始embedding。

2.3 两个元网络

2.3.1 Meta Scaling Network

文献[1]表明，冷id embedding和暖id embedding在特征空间中的表示是不同的，他们之间存在关系，因此作者希望通过元缩放网络来建模cold id embedding和warm id embedding之间的关系。相似的商品具有相似的warm id embedding，并且具有相似的“从冷到暖”的关系。冷启动的商品的交互数据是非常有限的，因此采用他们的交互数据来衡量相似性是不可靠的，但是商品的固有特征是稳定存在的（生产日期，类型等），因此作者采用商品的特征来衡量商品之间的相似性，冷暖阶段的id embedding之间的关系可以和商品的特征关联上。本文所提的元缩放网络公示如下，其中商品的特征

X_{v_i}

作为输入，w为可学习参数。冷id embedding向暖id embedding的转换可以表示为

v_i^{warm}=v_i\odot \tau_{v_i}^{scale}

。相当于从商品特征中学习到缩放系数，然后用缩放系数对冷id embedding进行缩放。

\tau_{v_{i}}^{s c a l e}=h\left(\boldsymbol{X}_{v_{i}} ; w_{s c a l e}\right), \tau^{s c a l e} \in \mathbb{R}^{k}

2.3.2 Meta Shifting Network

冷启动的商品的embedding的学习容易受到噪声的影响，因此利用上述缩放网络将冷id embedding转换为暖 id embedding，其中同样是包含噪声的。利用和商品交互的用户的embedding的均值能够一定程度上缓解噪声的影响[2]。因此这里需要用到上面提到的集合

U(v_i)

，网络可以表示为下式，集合U的大小可能是不同的，因此作者采用

\mathcal{G}

函数来整合他们，比如求均值。

\tau_{v_{i}}^{\text {shift }}=g\left(\mathcal{G}\left(\boldsymbol{U}\left(v_{i}\right)\right) ; w_{\text {shift }}\right), \tau^{\text {shift }} \in \mathbb{R}^{k}

因此最终的warm id embedding可以表示为

v_{i}^{\text {warm }}=v_{i} \odot \tau_{v_{i}}^{\text {scale }}+\tau_{v_{i}}^{\text {shift }}

。shifting网络可以认为是利用商品周围的邻居，即用户embedding来使得生成的表征更加稳定。

2.4 整体流程

本文针对的是冷启动商品在warm up阶段的优化方案。首先训练好了一个推荐模型，虽然该模型在已有的数据上具有较好的性能，但是对于新来的商品，会存在冷启动的问题，冷 id embedding无法很好的用于后续的推荐模型；然后，是训练两个元网络去warm up冷id embedding。固定推荐模型中原有的参数，然后利用旧的商品来模拟冷启动的过程，从而训练两个网络。

训练好的id embedding layer可以表示为

\phi_{id}^{old}

，生成的id embedding表示为

；模拟冷启动过程，构造新的id embedding layer表示为

\phi_{id}^{new}

，生成的embedding表示为

\hat{v}

。利用冷启动的id embedding得到预测概率为

\hat{y}^{cold}=f\left(\hat{v}_{i}, \boldsymbol{X}_{v_{i}}, \boldsymbol{u}_{j}, \boldsymbol{X}_{u_{j}} ; \theta\right)

，交叉熵损失函数为

\mathcal{L}^{cold}

并且用warm后的商品id embedding得到

\hat{y}^{warm}=f\left(\hat{v}_{i}^{warm}, \boldsymbol{X}_{v_{i}}, \boldsymbol{u}_{j}, \boldsymbol{X}_{u_{j}} ; \theta\right)

，交叉熵损失函数为

\mathcal{L}^{warm}

。

通过最小化warm loss来优化两个元网络，通过优化cold loss来优化id embedding layer。

3. 结果

image.png

4. 总结

本文的总体方法看下来，简单总结如下：本文所提元网络主要用于优化商品的id embedding，通过商品的特征学习到系数，用该系数将商品的冷id embedding转换为暖 id embedding；并且利用商品相关的用户的id embedding来使得学习到的商品id embedding更加稳定。

5. 文献

[1] Zhihong Chen, Rong Xiao, Chenliang Li, Gangfeng Ye, Haochuan Sun, and Hongbo Deng. 2020. ESAM: Discriminative Domain Adaptation with NonDisplayed Items to Improve Long-Tail Performance. In SIGIR. [2] Yudan Liu, Kaikai Ge, Xu Zhang, and Leyu Lin. 2019. Real-time Attention Based Look-alike Model for Recommender System. In KDD. 2765–2773

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-12-10，如有侵权请联系 cloudcommunity@tencent.com 删除

html

本文分享自秋枫学习笔记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

html

登录后参与评论

0 条评论

热度