前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文献阅读:DeepNet: Scaling Transformers to 1,000 Layers

文献阅读:DeepNet: Scaling Transformers to 1,000 Layers

作者头像
codename_cys
发布2022-04-13 17:03:00
2010
发布2022-04-13 17:03:00
举报
文章被收录于专栏:我的充电站我的充电站

1. 文章简介

这篇文章是我司前阵子发布的一篇对于transformer的优化文章,一作还是我室友兼师弟,也是挺有意思的。

这篇文章针对了当前经典的transformer模型在深度很深的情况下训练往往不稳定,容易发散的现象进行了一定的研究,对这个现象的原因进行了比较深入的分析,并基于此提出了一种deepnorm的layernorm方法,从而在数学上可以确保训练的稳定性。

基于此,文中直接把transformer的最大训练层数推到了1000层,视觉效果上是真的厉害。

在这里插入图片描述
在这里插入图片描述

2. 核心技术点

1. DeepNet整体结构

文中主要的模型架构,即DeepNet的模型结构倒是相对简单,和传统的transformer其实只有一点微小的变动,具体包含以下两点:

  1. 调整参数初始化
  2. 调整残差设计

文中直接给出了具体的函数伪代码以及超参建议如下:

在这里插入图片描述
在这里插入图片描述

下面,我们具体考察一下其具体的假设以及有效性分析。

2. 参数初始化考察

关于参数初始化为什么可以优化transformer训练稳定性的问题,我本人是了解的不太多,不过看文中的内容似乎已经有了几个对应的研究工作,比如以下三个:

  1. Improving Deep Transformer with Depth-Scaled Initialization and Merged Attention
  2. Improving Transformer Optimization Through Better Initialization
  3. Optimizing Deeper Transformers on Small Datasets
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022/04/10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 文章简介
  • 2. 核心技术点
    • 1. DeepNet整体结构
      • 2. 参数初始化考察
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档