学界 | 基于Apache MXNet,亚马逊NMT开源框架Sockeye论文介绍

选自arXiv

作者:Felix Hieber等

机器之心编译

参与:黄小天、李亚洲、刘晓坤

今年 7 月份,作为 MXNet 的支持者,亚马逊开源了自己的 NMT 框架 Sockeye。近日,亚马逊在 arXiv 放出了介绍 Sockeye 的论文,让我们能更细致的了解该开源工具的技术细节。机器之心对此论文做了摘要介绍,更多详细内容请查看原论文。

过去两年深度学习革命为机器翻译带来了快速而巨大的变化。相较于基于短语的传统系统,基于神经网络的新模型可以持续地为用户提供更高质量的翻译。神经机器翻译(NMT)同时为研究者打开了一幅激动人心的新局面,其中训练通道已简化,统一的模型也可直接从数据中得到训练。这种打破统计机器翻译(SMT)限制的希望使社区大受鼓舞,使得近期工作几乎全部聚焦在 NMT 上,并且看起来似乎每几个月就会有新突破。

在取得上述成果的同时,NMT 也面临着一系列新挑战。尽管流行的编码器-解码器模型之简单令人心动,近期文献及共享评估任务的结果表明,为了同时在翻译质量与计算效率上取得「生产就绪」的性能,还需要做大量的工程学工作。在 SMT 的流行趋势中,即使最强大的 NMT 系统也受益于微妙的架构调整、超参数调节和实证上有效的启发式技术。与 SMT 不同,NMT 没有「事实上」的工具包来吸引绝大部分的社区注意力,因此未能涵盖来自最近文献的所有最佳想法。相反,很多独立工具包的存在使该领域更加多元化,同时也使得由不同工具包实现的架构和算法提升变的难以对比。

为了解决这些挑战,我们引入了 SOCKEYE,一个由 Python 编写,通过 Apache MXNET4[Chen et al., 2015] 构建的神经序列到序列工具包。据我们所知,SOCKEYE 是唯一一个包含所有三大主流神经翻译架构实现的工具包:注意力循环神经网络 [Schwenk, 2012, Kalchbrenner and Blunsom, 2013, Sutskever et al., 2014, Bahdanau et al., 2014, Luong et al., 2015]、自注意力变换器 [Vaswani et al., 2017]、全卷积网络 [Gehring et al., 2017]。这些实现由分布广泛、持续更新且反映最近文献中的最佳想法的功能所支持。用户可根据最新研究轻松训练模型,对比不同架构,并通过添加代码扩展它们。SOCKEYE 仍在积极开发之中,研究和生产软件都遵循最佳实践,包括清晰的编码和文档指南、全面的自动测试以及代码贡献的同行评审。

图 1:不同编码器架构的计算相关性的原理图可视化。

表 1:Sockeye 中的 RNN 注意力类型。

表 2:无/有词汇选择机制(K=100)的 RNN 模型的 EN→DE 解码速率和 BLEU 分数。其中较小的模型使用 1 个编码器层和 1 个解码器层,而较大的模型使用 4 个编码器层和 8 个解码器层。

表 3:训练集(表格上部)、开发集(表格中部)和测试集的数据构成。所有的统计数据都是在标记化(tokenization)和长度过滤(length filtering)之后计算的。长度过滤通过行计数删除了大约 0.5% 的数据,通过词计数删除了 1.3% 的数据。

表 4:Groundhog RNN 模型在 newstest2017 数据集上的 BLEU 分数。

表 5:EN→DE Groundhog 模型的训练速率(每秒的更新次数)和吞吐量(如工具包中所报告的,转换为每秒的源语句平均数量)。

表 6:最佳设置的 RNN 模型在 newstest2017 数据集上的 BLEU 分数。Layers 列展示了编码器层和解码器层的数量。需要注意的是在不同的框架中,层的结构复杂度是有差异的。

表 7:在 newstest 2017 上变换器模型的 BLEU 得分。Marian 的更新分别为 41.5 万 14.5 万。

表 8 :在英翻德数据上,用 2 个 Volta P100 的训练速度。两个模型都是 100 万的更新/batch,Marian 使用了 4 个 Volta P100,且只有 41.5 万个更新。解码速度是在 WMT’17 英翻德测试集上测量的,使用了单个 Volta P100,batch size 为 16。输入长度被分拣为相似长度的 batch 语句。

表 9:在英翻德任务上,4 个 Volta P100 的训练速度如上图。解码速度是在 WMT'17 英翻德测试机上,beam size 为 5、batch size 为 16 的情况下测定的。

表 10:CNN 模型在 newstest 2017 上的 BLEU 得分

论文:SOCKEYE: A Toolkit for Neural Machine Translation

论文链接:https://arxiv.org/abs/1712.05690

摘要:我们在这里介绍 Sockeye(1.12 版),这是一个用于神经机器翻译(NMT)的开源序列到序列工具包。Sockeye 是一个生产就绪的框架,可为研究者提供针对训练、应用模型的实验性平台。该工具包由 Python 编写,建立在 MXNet 上,为三种最重要的编码器-解码器架构提供可扩展的训练和推断,分别是注意力循环神经网络(attentional recurrent neural networks)、自注意力转换器(self-attentional transformers)和全卷积网络(fully convolutional networks)。Sockeye 还支持多种优化器以及归一化、正则化技术,并利用当前的 NMT 文献提升了推断能力。用户可以很轻松地运行标准的训练流程、探索不同的模型设置,并结合新的想法。在这篇论文中,我们重点介绍了 Sockeye 的特征,并将 Sockeye 和其它的 NMT 工具包在 2017 年机器翻译会议(WMT)的两种语言翻译基准测试上进行了对比,分别是英语翻德语、拉脱维亚语翻英语。我们在三种架构上都得到了有竞争力的 BLEU 分数,其中在 Sockeye 的转换器实现上取得了综合最佳的分数。我们发布了所有在实验中使用的训练脚本和系统输出,以促进更详尽的对比。Sockeye 工具包是遵从 Apache 2.0 开源协议的免费软件。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-12-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

吴恩达机器学习课程:完全用Python完成,可以的!(附代码)

可以说,吴恩达(Andrew Ng)的机器学习课程是很多人、尤其是中国学生进入机器学习世界的引路人,被认为是入门机器学习的最好课程。截至目前,有超过80000人...

3.4K3
来自专栏目标检测和深度学习

统计学入门需掌握的四点思想

虽然很多人经常接触统计,甚至读本科/硕士/博士时都学习过,但是当他们亲自处理数据时往往极易陷入懵逼状态,不知用哪种方法比较合适,不知如何选择更佳解决方案。这便使...

3329
来自专栏牛客网

算法工程师:非科班机器学习工程师养成计划虐心面试实录一点人生经验

这是一篇不太专业的算法工程师面经,希望能给非科班想要从事机器学习工作的同学或学弟学妹一些建议,同时也回馈给予我很大帮助的牛客网。目前拿到的offer有:网易、三...

1K6
来自专栏华章科技

烧脑:谷歌微软等巨头107道数据科学面试题,你能答出多少?

来自 Glassdoor 的最新数据可以告诉我们各大科技公司最近在招聘面试时最喜欢向候选人提什么问题。首先有一个令人惋惜的结论:根据统计,几乎所有的公司都有着自...

1161
来自专栏数据结构与算法

模拟退火算法

爬山算法的思想就是一个劲的找最优解,如果接下来的任何状态都比当前状态差,那么就停止

62615
来自专栏大数据挖掘DT机器学习

怎样分析样本调研数据(译)

从一个群体样本中获取群体的整体特征是许多研究设计和统计方法发展的基础。根据数据收集的算法、调研问题的类型和调研的目标,分析样本调研数据的方法各不相同。这篇文章会...

3664
来自专栏新智元

一文看懂系列之深入理解 RNN——神经图灵机(附代码)

【新智元导读】RNN无疑是深度学习的主要内容之一,增强型RNN大致可以分为四种,本文介绍第一种:神经图灵机。 背景介绍 在写《深度学习与神经科学相遇》的过程中开...

4227
来自专栏AI科技大本营的专栏

探索 | 神经网络到底是如何思考的?MIT精英们做了这么一个实验室来搞清楚

作者 | Larry Hardesty等 编译 | ziqi Zhang 没错!人工智能是很火,神经网络也很火,但你真的懂它吗?神经网络到底是怎么工作的?没有...

3389
来自专栏AI科技评论

深度 | 清华大学博士生涂锋斌:设计神经网络硬件架构时,我们在思考些什么?(上)

基于神经网络的人工智能近年取得了突破性进展,正在深刻改变人类的生产和生活方式,是世界各国争相发展的战略制高点。 神经网络作为实现人工智能任务的有效算法之一,已经...

3306
来自专栏超智能体

好多人一辈子都没搞清什么是学习

老师和家长总是告诉我们要好好学习,可从没有人告诉过我们什么是学习,学习和记忆的区别又是什么。以至于很多人误以为记忆就是学习。更讽刺的是,市面上有一大堆学习方法,...

2194

扫码关注云+社区

领取腾讯云代金券