输出不详宗教预言,Google翻译为何“水逆”了?

最近,一些网友使用的 Google 翻译“水逆”了。

在 Reddit 上,有网友截图显示,在 Google 翻译中当某些语种的词汇翻译成英语时,输出的却是毫无由头的宗教语言。比如键入 19 个 dog,将其从毛利语翻译成英语时,输出的却是“距离十二点的世界末日时钟还差三分钟,我们正在经历世界上的人物和戏剧性发展,这预示着我们正在无线接近末日,耶稣回归时日将近。”

但这只是众多无厘头翻译的其中之一。还有网友放出了很多“不详”的翻译内容。例如,在索马里语中,“ag”这个词被翻译成了“Gershon 的儿子(sons of Gershon)”,“耶和华的名字(name of the LORD)”,并且会引用圣经里的“cubits”(计量单位)和Deuteronomy(《申命记》)。

有网友留言称其为“恶魔”或者“幽灵”,猜测这是 Google 员工的恶作剧,也有人建议设置“建议编辑”功能,让用户可以进行修改为正确内容。Google 发言人 Justin Burr 在一封电子邮件中称:这只是一个将无意义的话语输入系统然后产生无意义输出的功能。

不过 Justin Burr 并未透露 Google 翻译使用的训练数据是否有宗教文本。但上述诡异输出内容很可能已被 Google 翻译修正,AI科技大本营编辑输入上述相同内容后也并未发现异常。

但人们对探讨 Google 翻译出现如此结果的背后原因热情不减,更专业的声音在不断发出。哈佛大学助理教授 Andrew Rush 认为,这很可能与 2 年前 Google 翻译技术的改变有关,它目前使用了的是“神经机器翻译(NMT)”的技术。

BBN Technologies 的科学家 Sean Colbath 从事机器翻译工作,他同意奇怪的输出可能是由于 Google 翻译的算法试图在混乱中寻找秩序。他还指出,索马里语、夏威夷语以及毛利语等产生最奇怪结果的语言,它们用于训练的翻译文本比英语或汉语等更广泛使用的语言要少很多。所以他认为,Google 可能会使用像圣经等被翻译成多种语言的宗教文本来训练小语种的模型,这也解释了为什么会最终输出宗教内容。

前 Google 员工 Delip Rao 在其博客上则指出,当谈到平行语料库时,宗教文本是最低层次的共同标准资源,像“圣经”和“古兰经”这样的主要宗教文本有各种语言版本。

比如,如果你为政府部署一个 Urdu-to-English (乌尔都语——英语)的机器翻译系统,那么很容易将一堆已经翻译成乌尔都语的宗教文本组合在一起。因此,可以合理地假设 Google 的平行语料库中包含所有的宗教文本,而对于许多资源不足的语言,它们不只是训练语料库中微不足道的部分。

那么,为什么我们看到 Google 翻译会输出宗教文本,尤其是以那些资源不足的语言对作为输入时 ,如上文中的毛利语?一种解释是,因为宗教文本包含许多只会在宗教文本中出现的罕见词,而这些词在其他任何地方都不会出现。因此,罕见的词语可能会触发解码器中的宗教情境,尤其是当这些文本的比例很大时。另一种解释是该模型对输入的内容没有太多的统计支持,而输出也只是解码器模型的无意义采样。

更重要的是,他想要指出现在的神经机器翻译 (NMT) 真正存在的问题。

他特意总结了2017 年 Philipp Koehn 和 Rebecca Knowles 撰写的一篇论文,内容如下:

1.NMT 在域外数据上表现很差:像 Google 翻译这样的通用 MT 系统在法律或金融等专业领域的表现尤其糟糕。此外,与基于短语的翻译系统等传统方法相比,NMT 系统的效果更差。到底有多糟糕?如下图所示,其中非对角线元素表示域外结果,绿色是 NMT 的结果,蓝色是基于短语的翻译系统的结果。

MT 系统在一个域 (行) 上训练并在另一个域 (列) 上进行测试。蓝色表示基于短语翻译系统的表现,而绿色表示 NMT 的表现。

2.NMT 在小数据集上的表现很差:虽然这算是机器学习的通病,但这个问题在 NMT 中体现尤其明显。相比基于短语的 MT 系统,虽然 NMT 随着数据量的增加能进行更好地概括 ,但在小数据量情况下 NMT 的表现确实更糟糕。

引用作者的话来说,“在资源较少的情况下,NMT 会产生与输入无关的输出,尽管这些输出是流畅的。”这可能也是 Motherboard 那篇文章中探讨 NMT 表现怪异的另一个原因。

3.Subword NMT 在罕见词汇上的表现很糟糕:虽然它的表现仍然要好过基于短语的翻译系统,但对于罕见或未见过的词语,NMT 的表现不佳。例如,那些系统只观察到一次的单词就会被 drop 掉。像 byte-pair encoding 这样的技术对解决这个问题有所帮助,但我们有必要对此进行更详细的研究。

我们可以看到图中像土耳其语 (Turkish) 这样的语言,遇到词的变形形式是很常见的。

4.长句:以长句编码并产生长句,这仍然是一个开放的、值得研究的话题。在法律等领域,冗长复杂的句子是很常见的。MT 系统的性能将随句子长度而降级,而 NMT 系统亦是如此。引入注意力机制可能会有所帮助,但问题还远未解决。

5.注意力机制 != 对齐:这是一个非常微妙但又很重要的问题。在传统的 SMT 系统中,如基于短语的翻译系统,语句对齐能够提供有用的调试信息来检查模型。但即便论文中经常将软注意力机制视为“软对齐”,注意力机制并不是传统意义上的对齐。在 NMT 系统中,除了源域中的动词外,目标中的动词也可以作为主语和宾语。

6.难以控制翻译质量:每个单词都有多种翻译,并且典型的 MT 系统对源句的翻译好于 lattice of possible translations。为了保持后者的大小合理,我们使用集束搜索 (beam search)。通过改变波束的宽度,来找到低概率但正确的翻译。而对于 NMT 系统,调整集束尺寸似乎没有任何不利影响。

当你拥有大量数据时,NMT 系统的翻译性能依然还是难以被击败的,而且它们仍然在大量地被使用。关于通常我们所说的神经网络模型的黑盒性,也有待进一步说明,如今的 NMT 模型 (基于 LSTM 和 Transformer 模型) 也都受此影响。

相关链接:

https://motherboard.vice.com/en_us/article/j5npeg/why-is-google-translate-spitting-out-sinister-religious-prophecies

http://deliprao.com/archives/301

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

入门科普:一文看懂NLP和中文分词算法(附代码举例)

导读:在人类社会中,语言扮演着重要的角色,语言是人类区别于其他动物的根本标志,没有语言,人类的思维无从谈起,沟通交流更是无源之水。

5492
来自专栏智能算法

为什么算法这么难?

来自:刘未鹏 | MIND HACKS 链接:http://mindhacks.cn/2011/07/10/the-importance-of-knowing-...

3786
来自专栏AI科技评论

自然语言处理让人类都懵逼,看谷歌人工智能怎么破

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

3565
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:赔率和概率(3.1节)

在赫尔辛基大学AI基础教程:搜索和游戏(2.3节)中,我们讨论了搜索以及它在完全信息时的应用 ,比如像国际象棋这样的游戏。但是,在现实世界中,事情很少这样清晰。

922
来自专栏AI研习社

Google Brain:NMT训练成本太高?用大规模神经机器翻译架构分析给出解决方案

编者按:十年前,Google Translate发布。当时,这项服务背后的核心算法还是基于短语的机器翻译。 而十年后的今天,更先进的神经网络机器翻译( Neur...

3425
来自专栏CSDN技术头条

【问底】严澜:数据挖掘入门——分词

谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头也在积极布局深度学习。随着社会化数据大量产生,硬件速度上升、成...

2039
来自专栏AI研习社

机器人参加高考数学22分钟拿105分,究竟怎么做到的?

AI 研习社按:2017 年高考刚刚结束,据相关媒体报道,7 日下午,在没有网络和题库支持的情况下,一个名为 Al-Maths 的机器人在 22 分钟内完成了文...

3677
来自专栏牛客网

算法学习与求职经验

今天已经是11月初了,找工作的阶段已经进入尾声。回想这半年的时间,充满苦涩与艰辛,有幸拿到了几个offer,腾讯和滴滴的SP,还有百度和华为的offer,秋招之...

5448
来自专栏牛客网

谷歌,微软,阿里,美团实习生面经

3085
来自专栏牛客网

算法工程师:学习经验/心得+求职经验算法学习与求职经验学习心得和经验 求职心得和经验

算法学习与求职经验 今天已经是11月初了,找工作的阶段已经进入尾声。回想这半年的时间,充满苦涩与艰辛,有幸拿到了几个offer,腾讯和滴滴的SP,还有百度和华为...

5196

扫码关注云+社区

领取腾讯云代金券