腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

程序员一一涤生

同步自“程序员一一涤生”公众号。

专栏作者

118

文章

199895

阅读量

43

订阅数

想研究BERT模型？先看看这篇文章吧！

机器翻译 NLP 服务

序列转换方式由基于复杂递归神经网络(RNN)和卷积神经网络(CNN)的编码器和解码器模型主导。表现最佳的模型也只是通过一个注意力机制来连接了编码器和解码器。我们提出一个新的简单网络架构——Transformer。相比表现最佳的模型，该架构仅仅基于注意力机制，完全摒弃了递归和卷积。从两个机器翻译任务的实验结果显示，Transformer的效果更优秀，同时有更好的并行性，显著的减少了训练的时间。我们的模型在WMT2014年发布的“英-德”翻译任务上达到了28.4 BLEU【注解1】，超越了该任务上现有的最好的记录2个BLEU，包括总体效果。在英-法翻译任务上，我们的模型在8块GPU上训练了3.5天，并创造了单模型最好BLEU分数——41.8。相比文献中的最佳模型，这个训练成本不高。Transformer在其它任务上也有好的泛化能力，我们将其应用于English constituency parsing(英语成分句法分析)，无论在大量的训练数据上还是有限的训练数据上都获得了成功。

程序员一一涤生

2019-09-29

8770

想研究BERT模型？先看看这篇文章

机器翻译 NLP 服务

序列转换方式由基于复杂递归神经网络(RNN)和卷积神经网络(CNN)的编码器和解码器模型主导。表现最佳的模型也只是通过一个注意力机制来连接了编码器和解码器。我们提出一个新的简单网络架构——Transformer。相比表现最佳的模型，该架构仅仅基于注意力机制，完全摒弃了递归和卷积。从两个机器翻译任务的实验结果显示，Transformer的效果更优秀，同时有更好的并行性，显著的减少了训练的时间。我们的模型在WMT2014年发布的“英-德”翻译任务上达到了28.4 BLEU【注解1】，超越了该任务上现有的最好的记录2个BLEU，包括总体效果。在英-法翻译任务上，我们的模型在8块GPU上训练了3.5天，并创造了单模型最好BLEU分数——41.8。相比文献中的最佳模型，这个训练成本不高。Transformer在其它任务上也有好的泛化能力，我们将其应用于English constituency parsing(英语成分句法分析)，无论在大量的训练数据上还是有限的训练数据上都获得了成功。

程序员一一涤生

2019-09-23

6990

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态