前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GDCN:Deeper, Lighter, Interpretable的CTR预测网络

GDCN:Deeper, Lighter, Interpretable的CTR预测网络

作者头像
秋枫学习笔记
发布2023-11-27 18:33:31
5740
发布2023-11-27 18:33:31
举报
文章被收录于专栏:秋枫学习笔记秋枫学习笔记

标题:Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction 地址:https://arxiv.org/pdf/2311.04635.pdf 会议:CIKM 23 代码:https://github.com/anonctr/GDCN 学校,公司:复旦,微软

1.导读

本文主要是针对ctr预估特征交互方面提出的相关方法,是对DCNv2的改进。DCN和DCNv2可以参考https://zhuanlan.zhihu.com/p/433086709,这里就不赘述了。 现有方法存在三个问题:

  • 虽然大多数方法可以自动捕捉高阶特征交互,但它们的性能往往会随着特征交互顺序的增加而降低。
  • 现有的方法缺乏可解释性,尤其是对于高阶特征交互,这限制了其预测的可信度。
  • 许多方法都存在冗余参数,特别是在嵌入层中。

本文提出了一种门控深度交叉网络(GDCN)的和一种场级(field-level)维度优化(FDO)方法来应对这些问题。其中门控交叉网络(GCN)捕获显式的高阶特征交互,并按每个阶层(这里的阶是指特征交互的层次深度,就是通常说的高阶交互,低阶交互等)动态过滤重要交互。FDO根据每个field中包含的信息来学习压缩维度。

2.方法

GDCN由嵌入层、门控交叉网络(GCN)和深度网络(DNN)组成。GCN用于捕捉显式特征交互,有一个信息门控来识别重要的交叉特征。然后,将DNN集成到隐式特征交叉模型中。GDCN通过引入信息门自适应地过滤交叉特征,而不是直接聚合所有特征。这使GDCN能够真正利用更深层次的高阶交叉信息,而不会出现性能下降,并使GDCN具有可解释性。

我们都知道DCNv2主要有两部分组成,交叉网络和DNN部分,本文是在该基础上改进型的,所以结构也是类似的,结合交叉网络和DNN有两种方式堆叠和平行,如上图所示。

2.1 门控交叉网络(GCN)

作为GDCN的核心结构,GCN对带有信息门的显式特征交叉进行建模。 GCN的第

l+1

层门控交叉层表示为下式,其中

c_0

为经过emb层后进入交叉网络的基础输入,

c_l

表示经过第

l

层的特征交互后的输出。计算过程如图2所示。

\mathbf{c}_{l+1}=\underbrace{\mathbf{c}_{0} \odot\left(\mathbf{W}_{l}^{(c)} \times \mathbf{c}_{l}+\mathbf{b}_{l}\right)}_{\text {Feature Crossing }} \odot \underbrace{\sigma\left(\mathbf{W}_{l}^{(g)} \times \mathbf{c}_{l}\right)}_{\text {Information Gate }}+\mathbf{c}_{l},

在每个门控交叉层中,有两个核心组件:特征交叉和信息门。

  • 特征交叉组件计算一阶特征
c_0

和第

l+1

阶特征

c_l

之间的特征交互,从而得到第

l+2

阶的特征。

  • 矩阵W为交叉矩阵,表示不同field在特征交互时的重要性。然而,并非所有
l+2

阶特征对预测都有正向作用。随着交叉深度的增加,交叉特征表现出指数增长,引入了可能导致次优性能的交叉噪声。

  • 为了解决上述问题,本节引入了信息门控组件,自适应地学习第
l+2

阶特征的重要性。通过sigmoid函数得到门控权重也就是上式中的

W_{l}^{(g)}

  • 该过程可以放大重要特征,减轻不重要特征的影响。随着交叉层数量的增加,每个交叉层的信息门过滤下一阶交叉特征,并有效地控制信息流。

2.2 Field level的维度优化

嵌入维度通常决定对信息进行编码的能力。但为所有field分配相同的维度会忽略不同字段中的信息容量。如,性别的值的数量远小于itemid。本文使用后验场级维度优化(FDO)方法,该方法基于每个场(field)在特定数据集中的内在重要性来学习其维度。

  • 首先,训练一个固定场维度为16的完整模型,为每个字段生成一个信息嵌入表。
  • 使用PCA为每个字段的嵌入表计算一组奇异值,按大小降序排列。通过评估信息利用率(即信息比率),可以通过识别对总体信息贡献最大的k个奇异值。为每个字段选择合适的压缩维度。
  • 最后,用上一步中学习到的场维度来训练一个新的模型。

3.结果

随着深度增加,模型性能变化

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.导读
  • 2.方法
    • 2.1 门控交叉网络(GCN)
      • 2.2 Field level的维度优化
      • 3.结果
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档