(LN一般用在第三维度,[batchsize, seq_len,dims]),因为该维度特征的量纲是相同的,所以并没有太多区别
论文解读
背景
在非常多CTR相关的论文中,很多工作主要都Focus在模型结构方面的优化或者引入新的信息等...Variance-Only LayerNorm
这是一个经验得出来的操作,作者在大量的实验中发现,原始的LayerNorm有些复杂化了,在对其进行不断的精简实验后,作者发现在CTR数据集上的效果并没有带来下降...然后作者在CTR相关的数据集上又进行了大量的实验,发现对模型效果影响最大的不是re-centering等操作,反而方差带来的影响更大,于是作者提出了新的LayerNorm。...,
表示每个field的embedding的维度;
我们在该基础上加入Normalization,得到
image.png
,
此处的可以是LayerNorm,BatchNorm等。...我们把初始化的方案应用到更加复杂的网络结构上也都取得了更好的效果;也就是说这种Normalization的方案可以扩充到其他的所有最新网络结构上;
小结
从上面的内容来看,Normalization对于模型的帮助是非常大的