(LN一般用在第三维度,[batchsize, seq_len,dims]),因为该维度特征的量纲是相同的,所以并没有太多区别
论文解读
背景
在非常多CTR相关的论文中,很多工作主要都Focus在模型结构方面的优化或者引入新的信息等...本文通过大量的系统的实验,给出了结论:没有,还有更好的方案, 本文通过在CTR模型的不同地方加入不同的正则化策略(BatchNorm,LayerNorm等),最终取得了非常好的效果。...NormDNN
在不同的地方使用不同形式的Normalization策略会带来什么样的影响呢?...从上面的实验中,我们发现,在MLP层以及特征Embedding层都加入Normalization都是比单个加入都有效的,在MLP侧加入VO-LN的Normalization往往能取得更好的效果;
Normalization...相关的处理; Categorical Feature使用BatchNorm相关的处理; 在MLP部分使用VO-LN
泛化到其他Deep相关的模型
?