福利|清华大学开源神经机器翻译工具包THUMT

机器翻译是自然语言处理的重要组成部分,其目的是使用计算机自动将文本翻译成其他语言的形式。近年来,端到端的神经机器翻译发展迅速,已经成为机器翻译系统的新主流。近日,清华大学自然语言处理组发布了机器翻译工具包 THUMT,为业内人士的研究和开发工作提供了便利。

工具链接:http://thumt.thunlp.org/

THUMT 是用于神经机器翻译的开源工具包,构建于 Theano 之上,它具有以下特点:

  • 基于 Attention 的翻译模型:THUMT 应用了标准的 attention 编码器-解码器框架。
  • 最小风险训练:除了标准最大似然估计(MLE)之外,THUMT 还支持最小风险训练(MRT),其目的是找到一组模型参数,以最小化使用训练数据评估指标(如 BLEU)计算的预期损失。
  • 使用单一语言语料库:THUMT 为 NMT 提供了半监督训练(SST)能力,能够利用丰富的单语语料库资源来改善源-目标和目标-源 NMT 模型的学习。
  • 可视化:为了让人们了解 NMT 的内部工作机制,THUMT 提供了一个可视化工具来展示运行的每个中间状态,以及相关语境之间的相关性。

论文:THUMT: An Open Source Toolkit for Neural Machine Translation

论文链接:https://arxiv.org/pdf/1706.06415.pdf

该论文介绍了清华大学自然语言处理小组开发的 THUMT 神经机器翻译开源工具包。

THUMT 在 Theano 上层实现了标准的基于attention的编码器-解码器框架,并且支持三种训练标准:最大似然估计、最小风险训练和半监督训练。它的特点是有一个可视化工具,演示神经网络和语境单词隐藏态间的关联,从而帮助分析 NMT 的内部工作机制。

在中英数据集上的实验显示 THUMT 使用最小风险训练极大地超越了 GroundHog 的表现,它也是 NMT 的一个顶尖工具包。

THUMT 实现的模型是标准的基于attention的 NMT 模型 (Bahdanau et al., 2015),在 Theano 之上 (Bergstra et al., 2010)。

THUMT 支持三个优化器:

  • SGD:标准随机梯度下降,具有固定学习速率。
  • Adadelta(Zeiler,2012):根据历史,随时间动态调整学习速率。
  • Adam(Kingma and Ba, 2015):为每个参数计算不同的学习速率。THUMT 使用修正版本的 Adam 来解决 NaN 问题。

图 1:神经机器翻译的可视化

表 1:GroundHog 和 THUMT 之间的对比

表 2:MLE 和 SST 之间的对比

表 3:替代未知单词的效果

表 4:MLE、MRT、SST 训练时间对比

在该工具发布的论文中,研究人员已证明最小风险训练可以提高最大似然估计的效果,同时,半监督训练能够利用单一语言语料库来改善缺乏资源的翻译任务。

来源:THU数据派

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2017-06-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

鸟群的启发--粒子群算法

看文章之前先看一个相关小视频(55s, 2.86M): ? 1. PSO的基本思想: “自然界的蚁群、鸟群、鱼群、羊群、牛群、蜂群等,其实时时刻刻都在给予我们以...

401110
来自专栏向治洪

[置顶] 机器学习简介及常用算法

概念 什么是机器学习? 机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多...

22480
来自专栏云时之间

深度学习与神经网络:浅谈人工神经网络跌宕起伏七十年

人工神经网络在过去的七十年的时间里数次起起伏伏,几十年间人们一直在追求机器的智能化,在近几年的研究中,随着数据量的增加和深度学习神经网络算法的研究和进步,表明了...

37550
来自专栏悦思悦读

计算机是怎么理解人类语言的?

让计算机理解人类语言 “教”计算机理解人类的自然语言这部分工作,称作自然语言理解(Natural Language Understanding / NLU)。 ...

40980
来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习基石课程学习笔记6 -- Theory of Generalization

上一节课,我们主要探讨了当M的数值大小对机器学习的影响。如果M很大,那么就不能保证机器学习有很好的泛化能力,所以问题转换为验证M有限,即最好是按照多项式成长。然...

23500
来自专栏云时之间

深度学习与神经网络:浅谈人工神经网络跌宕起伏七十年

人工神经网络在过去的七十年的时间里数次起起伏伏,几十年间人们一直在追求机器的智能化,在近几年的研究中,随着数据量的增加和深度学习神经网络算法的研究和进步,表明了...

486110
来自专栏AI研习社

Hinton 谷歌大脑新作:通过给个体标签建模来提高分类能力

图片来源 oregon center for nursing AI 研习社按:Geoffrey Hinton 于 2013 年加入谷歌,目前在谷歌大脑团队致力...

361110
来自专栏ATYUN订阅号

利用深度神经网络创建一个球星的脸 效果堪比真人!

AiTechYun 编辑:Yining 游戏工作室花费数百万美元和数千个开发小时来设计游戏图案,试图让它们看起来尽可能接近现实。虽然在过去的几年里,游戏图案看起...

36780
来自专栏向治洪

机器学习

概念 什么是机器学习? 机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学...

211100
来自专栏机器之心

资源 | 清华大学开源神经机器翻译工具包THUMT

选自arXiv 参与:李泽南 机器翻译是自然语言处理的重要组成部分,其目的是使用计算机自动将文本翻译成其他语言的形式。近年来,端到端的神经机器翻译发展迅速,已经...

29950

扫码关注云+社区

领取腾讯云代金券