CTR预估中实现高效笛卡尔积特征交叉的方法

圆圆的算法笔记

发布于 2022-12-19 21:00:35

1K0

发布于 2022-12-19 21:00:35

文章被收录于专栏：圆圆的算法笔记圆圆的算法笔记

今天给大家介绍一篇WSDM2022阿里妈妈在CTR预估方面的工作，这篇工作重点探讨了什么样的特征交叉才是最有效的，并提出了一种代价较小的近似笛卡尔积的特征交叉模型。

论文标题：CAN: Feature Co-Action for Click-Through Rate Prediction
下载地址：https://arxiv.org/pdf/2011.05625.pdf

特征交叉升级动机

特征交叉一直是CTR预估中的提升效果的核心方法，很多CTR预估的工作也都围绕如何提升特征交叉的效果展开。典型的特征交叉工作例如FM、DeepFM、PNN等，通过设计每个id embedding在后续的交互方式，实现了隐空间中embedding级别的交叉。对这些CTR预估方法感兴趣的同学可以参考之前的文章一文读懂CTR预估模型的发展历程。

然而，FM、DeepFM等方法对于特征交叉的使用并不是最直接的。最直接的特征交叉方法其实是两两特征之间的笛卡尔积。例如有A和B两个特征，没有笛卡尔积的情况下，我们使用A特征的id embedding和B特征的id embedding预估label；而有笛卡尔积的情况下，我们在上述两个特征之外引入了A特征和B特征组合得到的一个新特征的id embedding。原始的预估从p(y|A,B)变成p(y|A,B,AB)。笛卡尔积生成的独立表征是非常强的记忆特征，能够实现样本的穿越，即AB这个特征组合的信息能够无损的穿越到所有包含AB特征组合的样本。

相比之下，单独使用A特征和B特征的embedding预测，由于样本之间的相互影响，无法达到和笛卡尔积相同的目的。因此，通过增加两个特征笛卡尔积的方式能够最大限度提升特征交叉带来的效果增益。然而，FM等交叉方法，特征的embedding不仅承担着学习预估ctr的表示，也承担着学习特征交叉，这限制了特征交叉的学习能力。

笛卡尔积也有它的问题，直接构造笛卡尔积的id embedding，一方面会使参数量暴增，模型难以上线应用。另一方面，笛卡尔积意味着参数空间的指数级膨胀，在样本量不变的情况下，很多笛卡尔积的embedding得不到充分训练，影响特征交叉的效果。此外，特征组合如果完全ID化，也无法建模不同组合之间的关系，比如AC生成的id embedding与AB生成的id embedding应该是有关系的，但纯id化的表示无法刻画这种关系。

基于以上思考，本文提出了一种高效实现近似特征笛卡尔积的方式，既能利用笛卡尔积的强交互特征，参数量又不会暴增，解决笛卡尔积参数空间过大的问题。

核心思路

这篇文章的核心去做的事就是如何给模型更多的容量，让模型能够处理特征之间的交叉。因为像之前所说，FM通过embedding内积的方式进行特征交叉，但是这些embedding还会用于ctr预估的表征学习，影响交叉的效果。同时，FM的点积也比较简单，难以像笛卡尔积embedding一样保留全部信息。

本文为了提升特征交叉部分的容量，主要做了两件事：第一件事是让ctr预估模型中的特征embedding和用来生成交叉特征的embedding参数分离；第二件事是设计了相比内积更复杂、容量更大的特征交叉网络。通过这种方式，让模型有充足的容量去学好特征交叉。

如下图所示，原始的笛卡尔积方法让特征交叉后得到新特征，输入到embedding层。右侧为本文提出的Co-Action Network，通过网路结构设计实现特征交叉，显著降低了模型参数量。

模型结构

本文提出的模型仍然是基于常规的Embedding+MLP架构，在此基础上增加了Co-Action Unit实现特征交叉。下图中右侧是整体的Embedding+MLP架构，左侧是每个Co-Action Unit单元的结构。

每个Co-Action Unit的输入为一对特征embedding，注意这里的特征embedding和ctr模型中用的embedding是两个独立的参数，为了不让ctr预估任务影响特征交叉的学习。文中将两侧的特征分别称为Induction侧和Feed侧。在Induction侧，将读取到的embedding通过reshape和split操作生成一个MLP网络的权重和bias参数，embedding的维度取决于要生成的MLP的尺寸，公式化可以表述为：