前沿 | 首次大规模神经机器翻译架构分析结果出炉,LSTM 优于GRU

选自arxiv

作者:Denny Britz等

机器之心编译

参与:微胖、蒋思源、吴攀

这样的实验只有谷歌级别的公司才能处理的了。这篇文章对大型 NMT 模型训练过程中的各个超参数对结果的影响进行了经验分析,并得出了一些有意义的结论。比如,嵌入用 2048 维结果最好,但是也没有好到哪里去,基本上,128 维的结果就不错了;LSTM 比 GRU 效果好;2-4 层的双向编码器效果最好。作为论文的一部分,作者们发布了一个开源 NMT 框架,能让研究员轻松试验新技术并得出最先进的试验结果,机器之心也有报道,请见(资源 | 谷歌官方开源 tf-seq2seq:一种通用编码器-解码器框架

  • 论文地址:https://arxiv.org/abs/1703.03906
  • 开源地址:https://github.com/google/seq2seq/

摘要

神经机器翻译(NMT)在过去的几年中有了很大的进步,并且由 NMT 构成的产品系统现已经部署到客户端中。不过当前架构主要的缺点就是高昂的训练成本,收敛所花费的 GPU 时间通常是几天到几周。这使得穷尽超参数(hyperparameter)搜索(这在其他神经网络架构中也很常见)的成本高昂的让人望而却步。在这篇论文中,我们首次大规模分析了 NMT 架构的超参数,并报告了几百次实验测试的经验结果和方差数(variance numbers),相当于标准 WMT 英译德任务上运行 250,000 多个 GPU 小时。我们也通过实验找到了一些关于构建和扩展 NMT 架构的新洞见,也提出了一些实用建议。作为这次研究贡献的一部分,我们发布了一个开源 NMT 框架,能让研究员轻松试验新技术并得出最先进的试验结果。

图 1:带有注意模块(attention module)的编码器—解码器架构。章节号代表该部分相应的参考实验。

图 2:带有以及不带有残差连接(residual connections)的深度解码器训练图表,且该图表示了在评估集上的对数困惑度(log perplexity)。

4.7 最后系统的对比

最后,我们将所有实验中性能最佳的模型(附加了 512 维注意(attention)的基础模型),从 newstest2013 验证集中挑选出的,与文献中的历史结果进行了比较(表 8)。尽管这不是这份研究的关注点,但是,通过将我们的洞见融入一个单独的模型(表 7 描述的),我们能够进一步改善效果。

虽然我们没有提供架构创新,但是我们的研究确实表明:通过详细的超参数调节和良好初始化,我们可以在标准 WMT 基准上实现最佳的性能表现。仅有(Wu et al., 2016)的模型比我们的模型表现更优,但是,他们的模型显然要复杂得多,也缺乏公开实现。

表 7:我们最终综合模型的超参数设置,由全部单独优化值组成

表 8:各种模型比较,包含:RNNSearch (Jean et al., 2015), RNNSearch-LV (Jean et al., 2015), BPE (Sennrich et al., 2016b), BPE-Char (Chung et al., 2016), Deep-Att (Zhou et al., 2016), Luong (Luong et al., 2015a), Deep-Conv (Gehring et al., 2016), GNMT (Wu et al., 2016) 和 OpenNMT (Klein et al., 2017). 带有 * 的没有公开的实现。

结论

我们对神经机器翻译架构差异进行了第一个大规模分析,梳理了实现最先进实验结果的关键因素。我们证实了一些令人惊奇的见解,包括集束搜索调节(beam search tuning)和绝大多数架构变化同样重要,使用了当前优化技术的深度模型并不总是优于浅模型。以下就是我们总结的实际发现:

  • 使用 2048 维的大型嵌入(embeddings)实现了最优的结果,不过优势很小。即使只具有 128 维的嵌入似乎也有足够的能力来获取绝大多数必要的语义信息。
  • LSTM Cell 始终优于 GRU Cell。
  • 2-4 层的双向编码器性能最好。更深的编码器显然在训练中不太稳定,不过如果优化好,更深的编码器会有潜力。
  • 深度 4 层解码器比浅一些的解码器表现要略胜一筹。训练 8 层的解码器,残差连接是必要的,而且密集的残差连接能带来额外的稳健性。
  • 参数化的额外的注意模块产生了总体最优结果。
  • 一个调适良好、具有长度罚项(length penalty)的集束搜索(beam search)十分重要。5 到 10 集束宽度(Beam widths)和 1.0 的长度罚项似乎效果不错。

我们强调几个重要的研究问题(包括高效利用嵌入参数 (4.1)),注意机制(attention mechanisms)作为加权跳过连接(weighted skip connections)(4.5)而不是记忆单元的角色作用,深度循环网络(4.3)需要更好的优化方法,以及超参数变化(hyperparameter variations)还需要更具稳健性的集束搜索(beam search/4.6)。

此外,我们还公开发布了一个开源 NMT 框架和我们所有实验的配置文件,该 NMT 开源框架专门用于研究架构创新和生成可重复实验。

机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

统计学入门需掌握的四点思想

虽然很多人经常接触统计,甚至读本科/硕士/博士时都学习过,但是当他们亲自处理数据时往往极易陷入懵逼状态,不知用哪种方法比较合适,不知如何选择更佳解决方案。这便使...

35990
来自专栏机器学习算法与Python学习

tweet情感分析流程

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 前言 自然语言处理(NLP)中一个很...

38880
来自专栏AI科技评论

苹果机器学习开发日记:如何设计能在Apple Watch上实时运行的中文手写识别系统

AI 科技评论按:随着苹果机器学习日记(Apple ML Journal)的开放,苹果分享出的设计自己产品、运用机器学习解决问题的故事也越来越多。近日苹果在上面...

406110
来自专栏大数据挖掘DT机器学习

怎样分析样本调研数据(译)

从一个群体样本中获取群体的整体特征是许多研究设计和统计方法发展的基础。根据数据收集的算法、调研问题的类型和调研的目标,分析样本调研数据的方法各不相同。这篇文章会...

38440
来自专栏机器之心

谷歌微软等科技巨头数据科学面试107道真题:你能答出多少?

选自Learndatasci 机器之心编译 参与:李泽南 来自 Glassdoor 的最新数据可以告诉我们各大科技公司最近在招聘面试时最喜欢向候选人提什么问题。...

30170
来自专栏牛客网

等了大半个月的b站offer,附算法岗三面面经

9月底第一批的面试,算法岗 终于等到你== 发一波面经,回馈一下牛客 一面 1.自我介绍 2.项目介绍 非常细致深入的讨论了项目 3.索引 一维 红...

57960
来自专栏段石石的专栏

Word2Vec 的迁移实践:Tag2Vec

今天我们就来重点关注下基于用户行为的内容表示的一些有意思的东西。

1.2K20
来自专栏天天P图攻城狮

GPUImage源码解读(四) - 图像锐化

边缘模糊是图像中经常出现的质量问题,由此造成的轮廓不清晰,线条不鲜明,使图像特征提取、识别和理解难以进行。

81430
来自专栏大数据挖掘DT机器学习

如何通过数据挖掘手段分析网民的评价内容?

近年来微博等用户自媒体的爆炸式增长,使得利用计算机挖掘网民意见不但变得可行,而且变得必须。这其中很重要的一项任务就是挖掘网民意见所讨论的对象,即评价对象。本文...

71780
来自专栏专知

谷歌上线机器学习速成课程:中文配音+中文字幕+完全免费!

【导读】3月1日,Google上线了AI学习网站——Learn with Google AI,并重磅推出了机器学习速成课程MLCC,该课程基于TensorFlo...

54490

扫码关注云+社区

领取腾讯云代金券