（修改）腾讯 | 流聚类和记忆网络对用户兴趣进行增强

秋枫学习笔记

发布于 2024-06-07 19:48:45

1080

发布于 2024-06-07 19:48:45

标题: Enhancing User Interest based on Stream Clustering and Memory Networks in Large-Scale Recommender Systems 地址：https://arxiv.org/pdf/2405.13238 公司：腾讯

由于腾讯 | 流聚类和记忆网络对用户兴趣进行增强文章中存在一些错误，经作者指出，在这里进行一些修改，修改部分用下划线标注。

1. 导读

本文主要针对用户行为稀疏的问题，提出用户兴趣增强（UIE）的方法，从不同的角度使用基于流聚类和记忆网络生成的增强向量和个性化增强向量来增强用户兴趣，包括用户画像和用户历史行为序列。UIE不仅显著提高了兴趣稀疏用户的模型性能，而且显著提高了其他用户的模型效率。

主要是三部分，用户画像增强，消费行为增强和序列增强。三个部分的思路比较接近：

记忆网络存储了聚类中心的emb
基于用户，item和序列的emb和聚类中心计算内积作为相似度得分，然后检索topK相似的聚类中心进行增强
兼顾了一些效率问题，因此在使用的过程中做了采样（包括低活和高活用户），高活用户的采样率更低，避免高活用户在训练中。

2.方法

本文的基础模型采用PLE，进行多任务训练。如图所示，用户兴趣包括用户画像和用户历史行为序列，这决定了排名模型性能的上限。本文提出的用户兴趣增强（UIE）的方法，包括三个部分：用户画像增强（UPE）、用户消费行为增强（UCBE）和用户消费序列增强（UCSE），分别用于增强用户画像和用户消费行为序列。使用最相关的聚类和消费行为来补充额外的兴趣信息。所有的增强向量都被作为PLE模型的新特征。

2.1 用户画像增强UPE

在实际场景中，有很多用户是缺乏行为信息，只有稀疏的用户画像。UPE的作用是在其他类似用户的帮助下为用户推断缺失的哪些特征。UPE的基本思想是基于端到端流聚类和存储在记忆网络中的最相似质心来增强用户的用户画像。

首先，获取用户画像相关的向量。设计了两个辅助网络，用于生成固定维度的用户和item向量。使用用户辅助网络来得到用户画像的向量user_vec。
其次，基于用户画像与记忆在记忆网络中的质心的相似性进行端到端流聚类。
- 在训练之前，随机初始化N个聚类的中心，这些中心是存储在记忆网络1中的d维向量。通过矩阵乘法计算用户画像向量与所有质心之间的相似性得分。
- 然后可以得到与当前用户向量最相似的聚类，使用蒸馏方法来更新相应的聚类中心，公式如下，是超参数，（这里应该是对和当前用户向量最接近的中心的误差对中心进行更新，笔者猜测这里可能是采用指数移动加权平均等方式）。为了平衡不同用户对聚类的影响，降低计算成本，本文根据用户的活跃类型进行采样参与聚类，这里对所有用户都会进行采样，对长期行为相对少的用户（低活用户），主要根据类似的簇对其进行增强，推断该用户未体现出来的其它兴趣。当然对高活用户进行增强同样有效。
基于相似性得分，从记忆网络1中检索与用户向量最相似的K1个相似聚类中心。需要确保检索得到的中心向量对用户向量的增强是正向作用，所以如过检索到的向量与用户向量的相似度得分是负的，则增强向量改为全0.
基于最相似的聚类中心和用户向量生成用户增强向量。在获得K1个最相似的向量后，基于下式得到加权向量，权重通过得分的softmax标准化后得到。为了实现更好的个性化增强，为每个用户定义一个个人向量，用于实现加权向量的个性化微调。加权向量和个人向量拼接后输入模型，图3中的左上角。