标题:Empowering Long-tail Item Recommendation through Cross Decoupling Network (CDN) 地址:https://arxiv.53yu.com/pdf/2210.14309.pdf 会议:KDD 2023 公司:谷歌
推荐系统中的item反馈通常是长尾分布的,即满足二八定律,少数item接收了大部分用户的反馈。在长尾分布下,推荐的item是有偏的,这会导致推荐效果变差,本文就是针对这类问题提出了相应的方法。
本文设计了一种新的交叉解耦网络CDN来解决上述问题:
本文主要是借鉴图像分类领域中的BBN的思路,在推荐场景中进一步改进并结合记忆信息和泛化信息进行模型构建(这种信息解耦的方式之前貌似就有,有点将两种方式缝合的感觉)感兴趣的可以先了解一下BBN。
CDN结构如图所示:
记忆特征:记住用户和item的交互,即协同信息,比如item ID。这些特征通常满足以下特点:
基于上述两个特点,这些特征只记住特定item的信息,而不能推广到其他现有或看不见的item。同时,由于其独特性,这些特征也呈现出长尾分布。因此,头部item相对应的特征的embedding会更频繁地更新,从而产生显著的记忆效果。而对于与尾部项目相对应的特征,由于缺乏梯度更新,它们的embedding可能包含很多噪声。
泛化特征:泛化特征是那些可以学习用户偏好和item特征之间的相关性,并且可以推广到其他item的特征。这些特征要么在不同的物品之间共享(例如,物品类别、标签),要么是连续的特征。
采用专家(MoE)结构和基于频率的门控来解耦记忆特征和泛化特征。该结构如图2项目(左侧)所示。对于训练样本(u,i),embedding可以表示为下式,
代表专注于记忆的专家网络,
为记忆特征 (例如item ID)将这些embedding拼接作为输入;
代表泛化特征对应的专家网络 (例如,item类别)将这些泛化特征的embedding拼接作为输入;G为门控网络,
,门控网络用于平衡记忆和泛化特征。比较直接的方式是把item出现的频率作为门控函数的输入得到加权的值
。
如图2的右侧所示,作者提出了一个由两个分支组成的正则化双边分支网络:一个在原始高度偏斜的长尾分布
上训练的“主”分支; 以及一个新的“正则化”分支,该分支在相对平衡的数据分布
上训练。
包括尾部item的所有用户反馈,同时对头部item的用户反馈进行下采样,使其与最流行的尾部项目的频率一样。通过这种方式可以提高用户对尾部item偏好的学习。
在训练的时候,将属于两个分布的数据分别输入到两个分支得到对应的表征如下,f是公共网络。
主分支旨在学习保留原始分布特征的高质量用户表征,对原始分布的训练可以学习最佳和最可泛化的表征。正则化子分支被设计为向模型添加更多的尾部信息,防止对尾部商品过拟合。