KDD'22 | 基于显著性正则化的多任务学习

秋枫学习笔记

发布于 2022-09-19 10:05:41

3560

发布于 2022-09-19 10:05:41

文章被收录于专栏：秋枫学习笔记

关注我们，一起学习~

标题：Saliency-Regularized Deep Multi-Task Learning 链接：https://arxiv.org/pdf/2207.01117.pdf 代码：https://github.com/BaiTheBest/SRDML 会议：KDD 2022 学校：埃默里大学

1. 导读

文章的多任务方法是在图像上提出的，对其他领域也有一定的借鉴意义。

本文是针对多任务学习提出的相关方法，提出了一种新的多任务学习框架，通过补充现有浅层和深度多任务学习场景的优势，共同学习潜在特征和显式任务关系。

将任务关系建模为任务输入梯度之间的相似性，并对它们的等效性进行理论分析。
提出了一个多任务学习目标，该目标通过新的正则化显式学习任务关系。

2. 方法

2.1 问题定义

考虑一个有T个任务的多任务学习问题，数据集

\{X, Y_1,...,Y_T\}

包含独立同分布的训练样本

X_t=\{x_1^{(t)},...,x_n^{(t)}\}

Y_t=\{y_1^{(t)},...,y_n^{(t)}\}

，其中n是样本量。

给定预测函数g，可以将其分解为

g=f \circ h

\circ

表示函数的组合，h用于特征提取，被所有任务共享，f是任务特异的，不同任务有不同的f进行预测。并且此处假设不同任务的输入是一样的。

目标是构建一个深度架构来学习多个任务

y^{(t)}=g_t(x_i),t=1,...,T

联合生成语义特征并学习任务关系。但是存在以下挑战：

1）直接正则化不同任务的预测函数是非常困难的。现有工作通过约束不同

f_t

的特征权重来缓解该问题，但这种约束有点过度。

2）如何学习具有深层/隐含特征的可解释任务关系仍不清楚。
3）由于 h 和 f 的非线性和非参数函数，在深度 MTL 中很少进行理论分析。

为了共同解决这些挑战，将浅层 MTL 中的特征权重重新考虑为输入梯度，即

\partial f(x) / \partial x, x \in \mathbb{R}^{K}

并通过考虑显着性检测方法将特征学习推广到深度网络，并且增强可解释性。

作者希望通过正则化的方式将任务之间的相似关系引入模型和损失函数。如何对不同任务之间的关系进行正则化，即如何对不同任务的预测函数的（不）相似性进行正则化。本文对不同任务输入的一阶导数进行正则化。

2.2 目标函数

首先给出显著性的定义，以计算机视觉为例，给定图像

，分类卷积网络

预测图像为类别c，得到预测分数

f_c(I)

。令A为最后一个卷积层的特征图激活。基于A中每个位置的重要性给他们排序，这被称为显着性。由于 f 的非线性，

f_c

和 A 之间的关系是高度非线性的。在这种情况下，使用一阶导数，即

\partial f_c / \partial A

来近似显着图，它基本上反映了A中不同位置对预测

f_c

的贡献。所提方法SRDML的目标函数为下式，i, j为任务下标，A=h(x)为最后一层卷积层的输出，

\nabla_{A} f_{t}

为函数f对A的一阶导数，即

\partial f_t / \partial A

。dist()函数衡量距离，如L1，L2。

\begin{array}{c} \min _{h, f_{1}, \cdots, f_{T}, \xi} \sum_{t=1}^{T} \mathcal{L}_{t}\left(f_{t}(h(\mathbf{X})), \mathbf{Y}_{t}\right), \text { s.t. } \\ \forall i, j, \operatorname{dist}\left(\nabla_{A} f_{i}, \nabla_{A} f_{j}\right) \leq \xi_{i j}, \sum_{1 \leq i < j \leq T} \xi_{i j} \leq \alpha \end{array}

为了自适应地学习任务关系，引入了

\{\xi_{i j}\}_{1 \leq i < j \leq T}

，它是每对任务的一组可学习松弛变量，α是用于控制整体松弛水平的超参数。每个

\xi_{i j}

为非负值。上式难以直接优化，利用拉格朗日方法，变换上式得到下式，其中

\omega

为可学习参数，建模任务之间的关系。

\begin{aligned} \min _{h, f_{1}, \cdots, f_{T}, \omega} & \sum_{t=1}^{T} \mathcal{L}_{t}\left(f_{t}(h(\mathbf{X})), \mathbf{Y}_{t}\right) \\ &+\lambda \cdot \sum_{1 \leq i < j \leq T} \omega_{i j} \cdot \operatorname{dist}\left(\nabla_{A} f_{i}, \nabla_{A} f_{j}\right) \\ &\text { s.t., } \forall i, j, \omega_{i j} \geq 0 \text { and } \sum_{1 \leq i < j \leq T} \omega_{i j} \geq \beta \end{aligned}

受图正则化的启发，其中每个节点对应一个任务，

\omega_{ij}

表示任务i和任务j之间的边的权重，因此 SRDML 可以自适应地学习图结构任务关系。对权重

\omega

进行归一化简化约束如下，

W=\sum_{1 \leq i < j \leq T}{\omega_{ij}}

\begin{aligned} \min _{h, f_{1}, \cdots, f_{T}, \omega >0} & \sum_{t=1}^{T} \mathcal{L}_{t}\left(f_{t}(h(\mathbf{X})), \mathrm{Y}\right) \\ &+\lambda \cdot \sum_{1 \leq i < j \leq T} \frac{\omega_{i j}}{W} \cdot \operatorname{dist}\left(\nabla_{A} f_{i}, \nabla_{A} f_{j}\right) \end{aligned}

图3为SRDML 架构。首先，输入图像被送入共享特征提取器进行特征提取。在特征提取过程之后，获得一组扁平化的特征图（如图 3 中的蓝色条所示），其中包含与原始图像相关的高级语义信息。在特征图之上，每个特定任务的部分将首先根据自己的预测计算显着图。基于所有任务的显着性图，可以通过一些距离度量来计算任务相似度。