KDD'23 交大，华为 | MAP：用于点击率预估的模型无关的预训练框架

秋枫学习笔记

发布于 2023-09-11 09:15:15

4630

发布于 2023-09-11 09:15:15

文章被收录于专栏：秋枫学习笔记

标题：MAP: A Model-agnostic Pretraining Framework for Click-through Rate Prediction 地址：https://arxiv.org/pdf/2308.01737.pdf 会议：KDD 2023 学校，公司：交大，华为

1.导读

本文关注点击率CTR预估方法的研究，本文将与训练-微调的方式引入点击率预估中，从大量的反馈数据中学习有效表征。本文提出模型无关的预训练MAP框架，利用特征损坏和回复来进行子监督学习。该框架主要包含两种算法：

掩码特征预测（MFP）：通过mask和预测一小部分的输入特征来研究每个实例中特征的交互，并引入噪声对比估计（NCE）来处理大型特征空间
替换特征检测（RFD）：通过替换和检测输入特征的变化，进一步将MFP转变为二分类任务。

2.方法

2.1 MAP框架概览

将nlp，cv中的子监督学习引入ctr预估任务中，首先为前置任务（或者说代理任务）预训练ctr模型，然后用点击信号微调预训练模型。

预训练阶段提出了一个与模型无关的预训练（MAP）框架。模型的前置任务是从损坏的样本中恢复原始信息（例如，原始特征，损坏的字段索引）。值得注意的是，MAP与任何神经CTR模型兼容，因为只破坏输入样本（即特征损坏层）并改变恢复目标的预测头（即特征恢复层）。最后，通过自定义特征损坏和恢复层的设计，得到两种特定的预训练算法。

MFP：mask掉原始特征中的部分特征，用代替，然后预测被mask的特征
RFD：检测每个field的特征是否被替换过

2.2 MFP

在MFP预训练阶段，首先用特征掩码层破坏原始输入样本

x_i

，用随机替换一定比例的特征。然后，将损坏的样本

x_i^c

通过embed层和特征交互层，得到表征

q_i^c

，然后将其输入到逐field的预测层，以预测每个的原始特征。考虑效率和实用性，作者引入噪声对比估计（NCE），以允许模型在大型特征空间（例如，数百万个候选特征）中进行预测。

2.2.1 特征掩码层

对于具有F个特征的输入样本，用随机替换部分特征，得到损坏的样本

x_i^c

。要mask的特征比例是由超参数γ控制。将mask字段的索引集表示为

。也是embedding表中的特征，一个特殊的特征，所有field用的的emb是一样的，即不用维护特定于field的mask表征，以避免引入有关的先验知识。

2.2.2 逐field预测层

在embedding层和特征交互层之后，得到表征

q_i^c

。对于第f个field的每个mask特征

x_{i,f}

，构造一个独立的MLP

g_f

，之后用一个softmax函数来计算候选特征上的预测概率

p_{i,f}

\begin{array}{c} z_{i, f}=g_{f}\left(q_{i}^{c}\right), z_{i, f} \in \mathbb{R}^{M}, \\ p_{i, f, j}=\frac{\exp \left(z_{i, f, j}\right)}{\sum_{k=1}^{M} \exp \left(z_{i, f, k}\right)}, j=1, \ldots, M . \end{array}

将每个masked field的预测空间（即候选特征）从特定于字段的特征空间扩展到全局特征空间，以增加前置预训练任务的难度，从而有利于下游CTR预测任务。也就是说，模型必须从整个特征空间中选择原始特征

x_{i,f}

，然后将MFP预训练视为一个多类分类问题，并利用多类交叉熵损失进行优化：

\mathcal{L}_{i}^{M F P}=\frac{1}{|\mathcal{I}|} \sum_{f \in \mathcal{I}} \operatorname{CrossEntropy}\left(p_{i, f}, x_{i, f}\right)