CIKM'23 | DTRN: 多任务学习中的任务特定底层表征网络

秋枫学习笔记

发布于 2023-09-11 09:16:52

8380

发布于 2023-09-11 09:16:52

文章被收录于专栏：秋枫学习笔记

标题：Deep Task-specific Bottom Representation Network for Multi-Task Recommendation 地址：https://arxiv.org/pdf/2308.05996.pdf 会议：CIKM 2023 学校，公司：中科大，阿里

1.导读

（这次尝试只讲重点，而不是像以往一样从头把方法都写一遍，如果喜欢这种形式的可以点赞告诉我

）

本文是针对推荐系统中的多任务学习提出的相关方法，MMoE，PLE都是采用基于门控机制的共享层，通过共享层隐式学习公共表征，但是如果任务之间存在冲突就会导致性能退化，在共享层的底部表征上会出现负迁移效应。本文针对多任务学习中的共享层提出DTRN来缓解负迁移问题。

整体框架如图所示，输入为用户特征，item特征，上下文信息和用户行为序列。用户行为序列有多种类型，不同的任务中不同的行为类型表达的兴趣也会有所不同。因此作者提出了

TIM，这部分用超网络提取任务类型和行为类型对反应的兴趣信息，产生用于transformer的LN中的γ和β系数，从而得到条件transformer。条件transformer用于编码用户的行为序列，得到在当前任务和行为类型下该序列反应的兴趣偏好。
TRM，将用户，item特征，上下文信息和用户行为反应的兴趣信息输入到细化模块中，细化模块就是在上述特征emb的基础上经过MLP得到emb的重要性权重，与原输入emb相乘后得到细化后的emb。
最后将得到的emb输入到各个任务的分支当中

2.方法

2.1 TIM：任务特定的兴趣模块

如图所示TIM包含两个子模块，Hypernetwork和Conditional Transformer。

（1）超网络使用任务类型embedding和行为序列类型embedding作为输入来动态生成条件参数。生成的参数应该捕捉相应任务和行为序列之间的相关性。（ps：任务类型emb：不同任务的emb，行为序列类型：用户有许多不同的行为类型（收藏，点击，购买等），因此需要用不同的emb来表示不同的类型）
（2）条件Transformer，用基础的transformer结构来处理用户的行为序列，这部分被所有任务类型和行为序列对共享。超网络生成的条件参数被注入到layer norm中来捕获任务特定的兴趣

超网络：TIM的关键是控制统一的行为序列建模网络，为每个任务和行为对产出特定的兴趣。应用超网络来获取任务和行为序列类型emb，并为任务和行为序列对生成条件参数。这些参数将作为额外的缩放参数，并将参数用到Transformer中的LN，以生成隐藏在针对特定任务的行为序列中的细粒度用户的兴趣。使用两个超网络分别生成缩放和平移参数，用两层MLP实现超网络，并使用ReLU作为激活函数。公式如下，

表示LN在transformer中的位置，t和b表示任务和行为的类型索引，通过两个MLP分别得到了LN中的缩放和平移的参数

\gamma_{t, b}^{l}=M L P_{\theta_{\gamma}^{l}}\left(\mathbf{T}_{\mathbf{i}}, \mathbf{B S}_{\mathbf{b}}\right), \beta_{t, b}^{l}=M L P_{\theta_{\beta}^{l}}\left(\mathbf{T}_{\mathbf{i}}, \mathbf{B S}_{\mathbf{b}}\right)

条件transformer: 条件transformer中主要修改的是LN层，即转变为CLN条件layer norm，将上述得到的γ和β输入到transformer中的LN中，公式如下，即在原始LN的基础上多考虑超网络的γ和β

C L N_{t, b}^{l}(X)=\gamma_{t, b}^{l} \cdot \gamma^{l} \cdot \frac{X-\mu}{\delta}+\beta_{t, b}^{l}+\beta^{l}

其他流程可见图3，与基础的transformer类似，将该任务i下不同类型的行为序列经过条件transformer和超网络后，可以得到对应的输出

out_{i,j}^{dec}

（解码器输出的第i个任务对应的第j个类型的行为序列的兴趣表征），将所有行为类型的输出拼接后得到当前任务特定的兴趣表征

interest_i