前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >炼丹知识点:深度网络特征交叉方法汇总

炼丹知识点:深度网络特征交叉方法汇总

作者头像
炼丹笔记
发布2022-05-23 12:40:25
1.9K0
发布2022-05-23 12:40:25
举报
文章被收录于专栏:炼丹笔记

作者:杰少

本篇文章把神经网络特征交叉的文章结合自己平时实践的经验梳理一遍,方便今后学习回顾。

  1. LR
  2. Poly2
  3. FM
  4. FFM
  5. MLP
  6. WDL(DLRS16)
  7. DeepFM(IJCAI17)
  8. NFM(IJCAI17)
  9. AFM(IJCAI17)
  10. xDeepFM(KDD19)
  11. TFNET(SIGIR20)
  12. ONN/NFFM(Arxiv19)
  13. AoAFFM(AAAI20)
  14. AutoFIS(KDD20)

上面所有的模型可以大致分为四个部分,特征embedding,特征低阶高阶显示交叉,特征隐式交叉,特征筛选。

特征Embedding

1

LR -> Poly2(特征交叉,基于点)

早期最早我们最为熟知的模型是LR,它的数学形式为:

我们知道LR其实是线性模型,所以很多非线性关系我们的LR模型是没法捕捉的,最典型的就是XOR,单条直线是没法直接分割的。

如果不做任何处理,LR是没法做到很好的区分的。那么怎么做呢?做些交叉特征。

这么看之前(0,0),(0,1),(1,0),(1,1)就被分配到了四个不同的bin中,对应位置的bin设置高的权重就可以解决上面的问题了。

02

Poly2 -> FM(升级特征交叉)

下面我们看一个特殊的场景,假设在我们的训练数据集中只有一个负样本(ESPN,Adidas),那么对于Poly2,(ESPN,Adidas)的组合特征对应的权重就会非常大,因为我们只能从该组合中学习它们的关系,这可能不是非常理想,那么如何缓解这样的问题呢?

对于Poly2算法,如果出现了某个用户A没有看过的电影B,那么对应的(UserA,MovieB)的组合就是0,但是如果使用FM的话,结果就不一样了,因为UserA和MovieB的向量可以从其他的特征对中进行学习,所以(UserA,MovieB)的组合可能会非常有意义。

02

FM -> FFM

FM已经缓解了非常多的问题,那么哪里还可以做出改进呢?

我们看下面几个例子:

于是我们就可以得到:

隐式&显示特征交叉

不管是Poly2,FM和FFM本质还是只学习了一阶和二阶的特征,那么高阶的特征怎么办?随着Deep模型的发展,我们尝试使用Deep模型去挖掘高阶交互特征,

01

传统 -> WDL

我们将Deep模型加入到原先的模型中来学习高阶的交叉,

02

WDS -> DeepFM(显示FM+隐式)

起初我们人为把特征embedding之后扔到MLP之中就可以很好地学习到高阶的交叉信息,但其实不然, MLP在特征组合的时候学习的并不是非常好,这个时候我们就需要找到之前我们的一些组合方法。将第一部分的内容加入进来。

03

WDS -> NFM(显示二阶+隐式)

做二阶特征,除了内积的形式外,我们还可以做element-wise的乘法, NFM提出了Bi-Interaction pooling,

在Bi-Interaction pooling之后连接上一层MLP学习高阶的特征交叉就可以得到:

NFM算另外一种结合两种将MLP与显示交叉结合的方式(之前是分两个分支),而实验中,我们发现后者可能效果更好一些。在模型的早期,加入Bi-interaction pooling并且拼接在之前的模型中一般是可以提升模型的效果的。

04

DeepFM/NFM -> TFNET(显示高级二阶+隐式)

之前的显示二阶特征交叉的形式都相对简单, 例如:

  • 内积交叉(FM,DeepFM的思想):

这么看我们其实每个元素在做内积的时候都乘上了一个1,我们是不是可以把这个1换成更加通用的呢,答案当然是可以的。

  • 加权交叉(NFM的element-wise乘法):

我们这么做忽略了两个向量不同元素之间的交叉,例如和此类的交叉,于是我们就想着能不能再扩展一下,所以我们就得到:

  • 混合加权交叉

能不能再扩展一下(张量的思想),

  • 加入多层语义信息

此处,作者认为不同层的语义应该是不一样的,所以又加入了attention 来学习T1

TFNET的输出为:

其中:

05

DeepFM -> ONN/NFFM(显示二阶+隐式)

在FM和FFM中,我们发现了FFM的表示相较于FM的几种好处,而且早期实验中也显示了FFM比FM却是要好很多。

所以类似的,既然FM和FFM都可以认为是Embedding,一个映射为单个dense向量,一个映射为多个dense向量,所以ONN就是将Embedding部分的特征修改,从FM的形式转化为FFM,后面仍然是一样的做cross的内积。

其中:

ONN是第一届腾讯赛冠军提出来的,在后两届的腾讯赛中,第一名也都有用到该模型,所以FFM的embedding是非常值得借鉴的。

此处还有一个小细节就是作者将embedding的特征和cross的特征进行concat输入MLP。

06

DeepFM -> xDeepFM(显示高阶+ 隐式)

上面所有的模型要么是直接用embedding之后用MLP模型进行隐式高阶特征在于显示的二阶交叉相加,要么就是二阶显示交叉之后再与一阶的embedding进行concat后加入MLP进行隐式学习。却还没有一个是显式学习高阶特征交叉的,那么这么做会有提升吗?xDeepFM告诉我们是的!!!

07

ONN/NFFM VS xDeepFM

ONN和xDeepFM是目前在数据竞赛中经常用到的模型(据本人所知,2020年之前的CTR竞赛最多的处理categorical的特征还是这两类模型),19年的腾讯赛冠军也是用的NFFM模型,二者的对比如下(18年的腾讯数据),整体来看,NFFM的效果要略好于xDeepFM,但二者融合效果还是极棒的!

无效特征&冗余特征筛选

01

FM -> AFM(噪音信息处理)

枚举式特征交叉的问题1:从上面所有模型的构建我们可以看到,所有的模型都是枚举式的二阶交叉,枚举的话毫无疑问就会带来非常大的问题,特征冗余,会带出非常多的无用的特征(Noise),这在实践中也是类似的,随机加入多个高斯噪音,模型的效果可能会下降(虽然很多时候下降不是非常多,但基本都是下降的),那怎么办呢?

  • 解法1: 降低不重要特征的权重。

所以我们就看到了最早的AFM模型。

AFM的数学表示形式为:

FM/DeepFM/PNN -> AutoFIS

  • 解法2: 先找到不重要的特征交叉(权重直接置为0),然后固定重新训练。

Step1:寻找到不重要的特征交叉,

Step2:重新训练:,

AFM/FFM/AoAFFM

(噪音+冗余信息处理)

枚举式特征交叉的问题2:除了枚举带来的噪音数据会导致我们的模型的效果下降之外,还有一类信息,就是冗余信息也会带来模型效果的下降,此处的冗余我们指:比如有一个交叉特征A非常重要,是非常强的特征,但是又有一个交叉特征B也非常重要,但是A特征和B特征的相关性几乎为1,也就是说A特征基本上已经包含了B特征的信息,其实只保留一个特征就好了,保留两个不仅会带来内存的消耗,还会导致我们的模型效果下降。实践中,最为常见,而且很多时候冗余信息带来的模型性能下降的程度比噪音数据会大。

  • 解法: 降低不重要特征的权重 & 希望将冗余信息的特征的权重调低。

所以我们就看到了最早的AoAFFM模型中的AoA希望处理的事情,当然此处作者不是基于FM做的,是基于FFM做的。

于是我们有:

在Feature-level的Attention网络中,我们可以学习每个特征的权重,但是却没法降低我们冗余特征带来的影响。所以两个类似的特征最终会有类似的attention,为了判别这种冗余的交互特征,我们使用interaction-level的attenion来处理,Q \in R^|\mathcal{F||} 从上面的网络框架图中,我们发现因为我们的Q是不依赖于前面的信息,所以即使对于相似的embedding向量,我们也有可能会有不同的权重,所以这个方法可以缓解特征冗余的问题。

总结

从这些文章看,目前神经网络的特征交叉研究的方向主要是:①.深化二阶特征的交叉(内积,element-wise,加入attention系数,加入张量细化);②.探索显示的高阶交叉; ③.探讨噪音&冗余特征的处理; ④.探索embedding的合理性;

参考资料

  1. xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems:https://arxiv.org/abs/1803.05170
  2. AoAFFM:Attention-over-Attention Field-Aware Factorization Machine:https://www.researchgate.net/publication/342540145_Attention-over-Attention_Field-Aware_Factorization_Machine
  3. AFM:Attentional Factorization Machines_Learning the Weight of Feature Interactions via Attention Networks:https://arxiv.org/abs/1708.04617
  4. ONN:Operation-aware Neural Network for User Response Prediction:https://arxiv.org/abs/1904.12579
  5. NFM:Neural Factorization Machines for Sparse Predictive Analytics:https://dl.acm.org/doi/10.1145/3077136.3080777
  6. AutoFIS:Automatic Feature Interaction Selection in Factorization Models for CTR Prediction:https://arxiv.org/abs/2003.11235
  7. TFNET:Multi-Semantic Feature Interaction for CTR Prediction:https://arxiv.org/abs/2006.15939
  8. DeepFM:https://arxiv.org/abs/1703.04247
  9. Field-aware Factorization Machines for CTR Prediction:https://www.csie.ntu.edu.tw/~cjlin/papers/ffm.pdf
  10. Factorization Machines:https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf
  11. Wide & Deep Learning for Recommender Systems:https://arxiv.org/abs/1606.07792
  12. Training and testing low-degree polynomial data mappings via linear SVM:https://www.jmlr.org/papers/volume11/chang10a/chang10a.pdf
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档