前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >把Transformer加深几倍,会怎么样?

把Transformer加深几倍,会怎么样?

作者头像
AI科技评论
发布2020-09-04 11:27:49
1.7K0
发布2020-09-04 11:27:49
举报
文章被收录于专栏:AI科技评论

更深层次的模型有助于更好地表达特性;在计算机视觉以及分本分类任务上,已经有成功案例。但是在机器翻译领域,目前标准的Transformer模型,仅仅有6层。 论文《Very Deep Transformers for Neural Machine Translation》将标准的Transfomer模型encoder加深至60层,decoder加深至12层。这些深层模型比基线模型的性能更优,并在WMT14 EnglishFrench和WMT14 EnglishGerman上达到了SOTA。

论文地址:https://arxiv.org/pdf/2008.07772.pdf

项目地址:https://github.com/namisan/exdeep-nmt

1

预备知识

Transformer模型包含N层Transformer layer。每个Transformer layer包含两个部分:Multi-Head Attention (MHA) 和Position-wise Feed-Forward Network (FFN)。用论文中的公式表示,分为两步:

MHA:

FFN:

MHA层和FFN层之间,以及FFN层之后包含一个残差连接和LN层,详细可见文献1。以上两个公式,可以统一表达为以下公式:

其中

代表ATT注意力层和FNN层,i下标表示第i层。

2

方法

越深层的网络,越难训练。因为训练网络时,容易出现梯度消失问题,即使layer normalization缓解了此问题,但是依然存在。在机器翻译中,解码器和编码器下层之间缺少梯度流动尤其成问题。文献2提出将交换

的位置,即先进行layer normalization, 再进行self-attention或者feed-forward network(Pre-LN), 公式如下:(Transofmer中标准形式称为Post-LN):

Pre-LN:

Post-LN:

将Transofmer的encoder增加到30层,并且改变了上一层信息传递到下一层的方式,该方法也被96层的GPT-3 采用。

论文在不改变Transformer结构的基础, 加深模型。主要参考了论文作者自己的一篇文献3 :该文献指出,Pre-LN比Post-LN训练更加稳定,但是Post-LN比Pre-LN有更大的潜力达到更好的效果;并且对比分析Post-LN训练不稳定的原因在于:Post-LN对于残差输出部分(非直接连接部分)进行LN次数少于其他部分,因此权重较大。因此提出Adaptive Model Initialization(Admin)方法来使得Transformer模型更加稳定,并且能够达到原有的效果。主要公式如下:

引入了一个额外的向量

与输入

的维度相同,对应元素相乘。分为两个阶段:

(1)Profiling:初始化

为元素全为1的向量,即保持原有Transformer中的公式计算,进行前向操作,计算每层

方差。

(2)Initialization: 在训练阶段,固定

按照上述公式进行前向操作,并更新参数。训练完成之后,重新参数化模型,例如最简单的操作,移除

。文献3附录中给出了更多重新参数化的方式,这里不再说明。

使用Admin初始化方法,可以有效训练稳定性,即使在深层的网络中使用。

3

实验

在英法和英德翻译任务上进行了实验,结果如下:

随着层数加深到60层encoder,12层decoder,如果不用Admin初始化方法,模型不再收敛;使用Admin方法后,模型收敛并且BIEU相比标准的Transformer模型提升了2.5. 说明加深标准的Transformer训练是可行并且有效的。值得注意的是,在标准的Transformer的基础上使用Admin初始化方法也带来了一定的提升。

Table2列出了当前一些最好的机器翻译的模型的效果,可以看出ADMIN深层Tansformer在以上两个数据集上也达到了最好的效果。

下图(a)对比了模型在训练过程中的曲线,表明Admin方法可以有效改善深层Transformer模型不收敛的问题。(b)图在验证集上,不同设置层数,Admin + Transfomer模型的perplexity随着训练步数的变化,可以发现在越深层的模型可以达到更小的perplexity值。

4

结论

1. 论文证明加深Transformer进行训练是可行的。并且使用Admin初始化方法将Transformer模型的encoder加深至60层,decoder加深至12层,在两个机器翻译的数据集上Bleu大约提高了2个点。

2. 为深层transformer模型的研究开辟了方向。

参考文献:

1. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

2. Wang, Qiang, et al. "Learning deep transformer models for machine translation." arXiv preprint arXiv:1906.01787 (2019).

3. Liu, Liyuan, et al. "Understanding the Difficulty of Training Transformers." arXiv preprint arXiv:2004.08249 (2020).

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档