前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不再需要词典了,现在,AI通过无监督学习学会了双语翻译

不再需要词典了,现在,AI通过无监督学习学会了双语翻译

作者头像
量子位
发布2018-03-23 14:32:08
6940
发布2018-03-23 14:32:08
举报
文章被收录于专栏:量子位量子位
维金 编译 Science 量子位 出品 | 公众号 QbitAI

由于神经网络技术的发展,翻译自动化已经取得了长足的进步。然而传统上,训练这样的神经网络需要大量数据:通过数百万的逐句对照来展示人工如何翻译。

两篇最新论文表明,在不需要平行文本(即同一段文本的不同语言版本)的情况下,神经网络也可以学会翻译。这样的进步可以帮助我们阅读更多不同语言的文档。

西班牙巴斯克大学计算机科学家Mikel Artetxe表示:“请想象一下,你给一个人大量的中文图书和大量的阿拉伯文图书,两者之间没有任何重叠,随后让这个人学习把中文翻译成阿拉伯文。这似乎是不可能的,对吧?但我们已经证明,计算机可以做到这点。”

大部分的机器学习系统是“受监督”的。计算机做出猜测并对比正确答案,随后调整流程。这种方法在训练计算机翻译英文和法文时效果很好,因为许多文档同时有这两种语言的版本。但对于小语种,或是缺乏平行文本的语言,这种方法就不是太好。

这两篇论文已经提交至明年的ICLR大会,但还没有经过同行评审。论文专注于另一种方法:无监督机器学习。

首先,计算机在没有人工帮助的情况下创建双语词典。这是有可能的,因为语言的单词集群方式有很强的相似性。例如,“桌子”和“椅子”这样的单词在所有语言中都会经常同时出现。

因此,如果计算机将这些常常共同出现的单词匹配起来,那么不同语言的图谱彼此之间很相像,仅仅只是叫法不同。计算机可以找到最佳方式,将一种叫法匹配至另一种。这样,你就有了一本双语词典。

新论文提出的方法类似,但可以在句子层面进行翻译。

论文中使用了两种训练策略,分别为反向翻译和去噪声。在反向翻译训练中,一种语言的句子被粗略翻译成另一种,随后再反向翻译回来。如果反向翻译的句子与原始句子不同,那么神经网络就会调整,在下次翻译时力求让结果更接近。去噪声方法与反向翻译类似,但并不是将一个句子来回翻译,而是向句子中插入“噪声”(打乱单词或插入单词),随后再将翻译后的句子再翻译回来。通过两种方法的结合,神经网络就可以了解语言的更深层结构。

两篇论文的技术之间存在些许差异。在训练过程中,巴斯克大学的系统会更频繁地进行反向翻译。由Facebook计算机科学家Guillaume Lample及其同事设计的另一种系统在翻译过程中则加入了额外的步骤。在翻译至其他语言之前,两个系统都可以将原始语言的句子编码为更抽象的表述。不过,Facebook的系统会验证,中间的过渡“语言”是真正抽象化的。Artetxe和Lample均表示,通过应用对方论文中的技术,结果有所改善。

两篇论文提供了唯一的直接可比结果,即3000万句英文和法文之间的双向翻译。两种方法在两个方向上取得的双语评价演习得分(用来衡量翻译的准确性)均约为15分,与谷歌翻译相比要低。谷歌翻译采用了受监督的方法,得分约为40分。而人工翻译的得分通常超过50分。

不过,这要比逐词翻译的结果要好。论文作者表示,通过半监督方法,即在训练中加入数千个平行句子,系统的优化并不难。

Artetxe和Lample表示,除了用于无平行文本的翻译之外,他们的系统还有助于语言的匹配,例如英文和法文之间的匹配。例如,现有材料很可能是一条新闻的不同语言版本,而配对结果可以用于新的领域,例如街头俚语或医学术语。Artetxe论文的合作者Eneko Agirre表示:“这还是在起步阶段,我们刚刚开辟了新的研究方向,因此还不知道未来究竟会通往何处。”

微软亚洲研究院科学家He Di的研究对这两篇论文产生了影响。他表示:“计算机可以在没有人工监督的情况下学会翻译,这令人震惊。”Artetxe表示,他提出的方法与Lample的方法非常类似,这令人惊讶。“但与此同时,这也是件好事。这意味着,这个方法确实是正确的方向。”这两篇论文同一天上传至arXiv。

传送门

Mikel Artetxe论文地址:

https://arxiv.org/abs/1710.11041

He Di论文地址:

http://papers.nips.cc/paper/6469-dual-learning-for-machine-translation

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 维金 编译 Science 量子位 出品 | 公众号 QbitAI
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档