, 是关于正则化的探讨, 作者发现在不同阶段对数据进行不同的正则化操作会有非常大的影响,在正确的位置进行正确的正则化操作可以为模型带来巨大的提升, 本文一共两块内容,第一块介绍LayerNorm以及BatchNorm...的联系&区别;第二块则专注于介绍论文的内容,该篇论文是基于实践经验的,个人觉得非常值得一试。...本文通过大量的系统的实验,给出了结论:没有,还有更好的方案, 本文通过在CTR模型的不同地方加入不同的正则化策略(BatchNorm,LayerNorm等),最终取得了非常好的效果。...并没有什么性能损失,相反的还可以取的更好的效果。...我们把初始化的方案应用到更加复杂的网络结构上也都取得了更好的效果;也就是说这种Normalization的方案可以扩充到其他的所有最新网络结构上;
小结
从上面的内容来看,Normalization对于模型的帮助是非常大的