文献阅读：DeepNet: Scaling Transformers to 1,000 Layers

codename_cys

发布于 2022-04-13 17:03:00

2010

发布于 2022-04-13 17:03:00

这篇文章是我司前阵子发布的一篇对于transformer的优化文章，一作还是我室友兼师弟，也是挺有意思的。

这篇文章针对了当前经典的transformer模型在深度很深的情况下训练往往不稳定，容易发散的现象进行了一定的研究，对这个现象的原因进行了比较深入的分析，并基于此提出了一种deepnorm的layernorm方法，从而在数学上可以确保训练的稳定性。

基于此，文中直接把transformer的最大训练层数推到了1000层，视觉效果上是真的厉害。

文中主要的模型架构，即DeepNet的模型结构倒是相对简单，和传统的transformer其实只有一点微小的变动，具体包含以下两点：

文中直接给出了具体的函数伪代码以及超参建议如下：

下面，我们具体考察一下其具体的假设以及有效性分析。

关于参数初始化为什么可以优化transformer训练稳定性的问题，我本人是了解的不太多，不过看文中的内容似乎已经有了几个对应的研究工作，比如以下三个：

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2022/04/10 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度