作者 | 知乎博主@青枫拂岸 整理 | NewBeeNLP
今天带来是Google发表于KDD2018,针对于多任务推荐的经典模型MMOE。
由于本论文的创新偏向于模型结构和设计,而非模型策略的优化。故本篇讲解将主要聚焦于此。
一般来讲,单任务建模一般聚焦于ctr,无论是电商场景还是新闻推荐场景下,但是久而久之,则会发生一些问题,如新闻领域的标题党,电商场景下的点击未购买,在这样的情况下,是否可以通过多任务模型来避免此类问题的发生呢?
什么是多任务模型:多任务学习旨在构建单个模型来同时学习多个目标和任务。
如同时预测新闻的ctr和阅读时长,电商场景的ctr和购买转化率。
但是,通常任务之间的关系会极大地影响多任务模型的预测质量。即传统的多任务模型对任务关系比较敏感。文中3.2-3.3小节进行实验得出结论。
因此,学习task-specific objectives和inter-task relationships之间的权衡也非常重要。
It is therefore important to study the modeling tradeoffs between task-specific objectives and inter-task relationships.
文中阐述多任务学习的框架主要采用 shared-bottom结构,即不同任务共用下层的隐藏层,再通过建立顶部不同的塔,来对应不同的任务。这样做的好处是减少参数,但是劣势是 训练过程中出现不同任务之间的优化冲突(optimizationn confilicts)。
所以也有一些其他结构,如:两个任务的参数不在公用,但是参数之间使用L2范数限制。亦或者是每个任务学习隐层embedding再进行组合。通过张量分解模型(tensor factorization model)获得不同任务的隐层层参数。具体可参考原文2.1小节涉及论文。
相对于shared-bottom结构,其他方法产生大量参数,但的确解决了任务优化冲突问题,但是这些方法都面临着一个绕不开的工业问题—— 真实环境大规模服务 。
本文借鉴了MoE model, 提出Multi-gate Mixture-of-Experts model (MMOE) 模型,对比shared-bottom,在模型表达能力和训练难度上都更加优秀,在真实环境中更加有效。
如上图a所示,假设有K个任务,上层则会有K个塔(图中K=2),每个塔的函数为
, k=1,2,...,K。shared-bottom 层作为底部共享层,表示为函数
。对于不同的任务输出为
公式为
其中
,
为来自专家
的可能性。
是专家网络 i∈1,2,...,n。
代表gating网络,就是融合下层expert网络的一种集成方式。更为具体地说,
产生n个experts上的概率分布,从而输出所有expert网络结果的权重和,类似于机器学习中的模型融合方法。
虽然MoE最初是作为多个单独模型的集成方法开发的,但Eigen等人和Shazeer等人将其转化为基本构建块——MoE层。MoE层具有与MoE模型相同的结构,但接受前一层的输出作为输入并输出到后续layer。然后在端到端中对整个模型进行训练。即把MoE作为大模型的一小部分。
图中的b为One-gate Mixture-of-Experts (OMoE) model,即只有一个gating 网络。接下来的实验对比使用的便是OMoE。
如图c所示,本文提出的模型结构,与Shared-bottom多任务模型相比,该模型旨在捕获任务差异,而不需要更多的模型参数。关键是用MoE 代替了 Shared-bottom,并且对于每一个任务task都加了一个单独的gating 网络。例如对于任务k有公式
where
gating 网络使用DNN+ReLU+softmax实现:
其中
是可训练矩阵,n是专家网络的个数,d是特征维度。
每个gating网络都可以根据训练来 选择 对应输入的expert网络权重。在多任务学习情况下灵活的进行参数共享是具有优势的。
假设在极端条件下,gating网络智能选择一个expert 网络输出,则每个门网络实际上将输入空间线性地划分为n个区域(n为任务个数),每个区域对应一个expert,即每个expert 网络负责一个任务,模型退化为单任务模型的组合。
总之,MMoE能够通过确定不同门导致的分离如何相互重叠,以复杂的方式对任务关系进行建模。
如果任务相关性较小,则共享expert将受到惩罚,这些任务的控制网络将学习如何使用不同的expert。因此模型考虑到了捕捉到任务的相关性和区别。与shared-bottom模型相比,MMoE只有几个额外的选通网络,并且选通网络中的模型参数数量可以忽略不计。
真实数据中无法轻易改变两个任务的相关性,为了探究任务相关性对于模型结果的影响,要进行人工构造数据集,具体可参考文中3.2节,其中相关性的衡量采用Pearson 相关系数。
输入维度100,划分为8个expert网络,每个expert 网络 的hidden size为16。顶层2个任务,towner 网络hidden size=8,故参数为 1000×16(每个expert 特征Embedding化参数) ×8(expert个数) + 16*8(每个towner参数)*2(task个数)。
对于大型网络模型,我们更关心模型是否可训练,例如 设置不同模型的超参数设置和模型行初始化是否对模型足够鲁棒。
故文章自然地研究模型相对于数据和模型初始化中的随机性的鲁棒性。在每个设置下重复实验多次。每次数据都是从相同的分布但不同的随机种子生成的,并且模型的初始化也不同,观察不同任务的loss变化情况。
实验结果
结论:
模型部署在Google Inc.上,拥有数亿用户的内容平台。业务场景是,根据与用户当前的消费行为,推荐下一步消费的相关物品列表。
对于两个任务分别设置为:
训练数据包括数千亿用户的隐性反馈,如点击和喜欢。如果单独训练,每个任务的模型需要学习数十亿个参数。因此,与单独学习多个目标相比,Shared-Bottom架构具有更小模型尺寸的优势。事实上这种Shared-Bottom模型已经在生产中使用。
利用100亿数据量 设置batch_size=1024,展示经过200w step、400w step和600wstep的结果。
可以看到MMoE的效果最好。
针对不通任务下,gating网络得到的不通Expert网络的系数分布
提出了一种新的多任务模型范式 MMoE 有点如下: