前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多家翻译软件大型翻车现场?机器翻译到底有哪些不确定性

多家翻译软件大型翻车现场?机器翻译到底有哪些不确定性

作者头像
AI科技评论
发布2020-06-09 15:06:43
4890
发布2020-06-09 15:06:43
举报
文章被收录于专栏:AI科技评论AI科技评论

作者 | 蒋宝尚

编辑 | 丛末

自然语言处理果真是人工智能皇冠上的明珠,在走向摘取颗果实的路上,人类恐怕还只是走了一半。

具体表现是,在机器翻译的世界里,一直无法赋予机器足够的“灵性”。例如,林则徐虎门销烟被某度软件翻译成了“Lin Zexu sells cigarettes in Humen” 。

图注:笔者后续对百度进行测试时,发现已经是正确翻译:“Lin Zexu destructed opium at Humen”

显然,机器把“销”等同于“销售”。其实,这种等同,对于其他人,在没有上下文语境的情况下是完全可行的,例如,小李虎门销烟=小李虎门卖(销售)烟、小明虎门销烟=小明虎门卖(销售)烟。但是,对于林则徐,是无论如何不能做这种混淆,因为,这句话本身就包含了上下文语境。虎门销烟是中国近代史上的重要事件,对于人工译员来说,这是非常重要的背景知识,销毁(销)的是鸦片(烟),目前机器翻译系统明显缺乏对这种知识的理解能力,这也可能是导致翻译错误的一个重要原因。

对此,AI科技评论还专门测试了其他几个著名的翻译软件。其表现如下:

显然,谷歌翻译也没能经受的得住考验。

金山翻译,仍然是sells,这动词还用的是第三人称单数!

有道翻译:“销烟=烟”。有道的整体翻译,总感觉怪怪的,如果把smoke看成动词“吸烟”也不怎么通顺!难道它把“林则徐虎门”看成了一个人?

腾讯翻译争气了很多,“Lin Zexu destroys opium in Humen”点燃了希望之光~

我们试了试在日本大火的DeepL:译文的内容相对完整一些,但也没有正确翻译“烟=鸦片”,译文中包含一些多余的单词。

1

数据和算法双重问题下的翻译BUG

那么,只是简单的一句缺乏上下文语境就能解释这么多家翻译软件为什么都出现BUG么?为此,AI科技评论专门咨询了东北大学自然语言处理实验室主任肖桐老师,他解释道:“主要还是训练数据的覆盖度问题,数据中“销”很多的时候被当作sell,对生僻一些的用法机器翻译现在还无法处理。说到底,机器翻译现在还是在“背”,没见过的情况,不会像人一样推理,缺乏对句子的真正理解能力。”

小牛翻译创始人、东北大学朱靖波老师将这种译文与原文本意不同的现象,称之为“跑飞”现象,他解释到:“出现这种现象的原因是神经机器翻译技术本质上没有对句子进行真正的理解,所以有些时候无法保证译文的忠实度。早期神经机器翻译中这个问题比较严重,现在这个问题得到了缓解,偶尔会出现,但不常见。”

论文链接:https://arxiv.org/pdf/1803.00047.pdf

对于机器翻译的这些BUG,2018年也有一篇论文详细阐述了这些现象。这篇论文的第一作者是来自FAIR的Myle Ott,他在论文的引言部分就提到:当前大多数机器翻译的模型都是基于神经网络(NMT),而神经网络机器翻译明显没有给予生词(rare words)足够的重视,最明显的表现是曝光误差(exposure bias),简单来讲是因为文本生成在训练和推断时的不一致造成的。

在论文中,作者对于包括但不限于“生词”的机器翻译现象给予了一个总结:所有的机器翻译问题的基本主题都是不确定性,即学习任务的一对多性质,换句话说给定一个句子,有多种翻译结果。

然后,针对这种不确定性,作者分了两类解释原因,一类是数据的不确定性,另一类是模型解读(搜索)信息的不确定性。

数据的不确定性来源与两个方面:内在和外在。

内在不确定性的表现是:一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的,即使字面上有很多表达相同意思的方法。句子的表达可以是主动的,也可以是被动的,对于某些语言来说,类似于“the”,“of”,或“their”也是可选择的。除了一句话可以多种翻译这种情况外,规范性不足同样是翻译不确定的来源。

另外,如果没有背景输入,模型通常无法预测翻译语言的时态或数字,因此,简化或增加相关背景也是翻译不确定性的来源。

外在的不确定性表现在:使用低质量的网络数据进行高质量的人工翻译。这一过程容易出错,并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译,或者目标句里面有源句中没有的信息。

对模型输出中的不确定性量化,作者在论文中先比较了集束搜索(Beam Search)和采样两种搜索策略,然后研究了数据中特定种类的外部不确定性对集束搜索的影响。得出的结论是集束搜索非常高效,而更大的波束宽度在寻找更高的似然输出方面也更加高效,而外部不确定性通过影响波束宽度从而影响搜索的效果。

在论文的最后,作者采用更全面的观点,将估计分布与真实数据分布进行比较。结论是与数据分布相比,模型在假设空间中传播的概率过大,往往低估了个别假设的实际概率。换句话说,模型根据概率输出翻译结果,有时候会出现不靠谱的情况。

2

机器翻译:如何让机器不再死记硬背?

回顾机器翻译技术的发展历程,第一代是基于规则的机器翻译技术RBMT,主要通过专家手工书写翻译规则来实现;第二代是统计机器翻译技术SMT,第三代是目前主流的神经机器翻译技术NMT。

第二代SMT和第三代NMT采用机器学习方法,数据驱动,基于大规模双语句对来训练构建机器翻译系统。由于人工书写规则的代价很高,构建大规模双语句对的代价也非常高,很多语言对难以收集大规模的双语句对,在上述例子中机器将“虎门销烟”中的“销”作为“销售”处理,也正是因为语料稀缺所致。

朱靖波老师在去年9月AI Time的一场活动中曾经提到过当前的机器翻译与我们在外语学习机制上的差异:我们学习外语的方法并不是通过阅读大量双语文章,而是背背单词,学学语法,以及大量阅读外文单语文章,在不知不觉中掌握了外语。但机器学习外语的方式就大不一样,不管是上一代的统计机器翻译,还是目前主流的神经机器翻译,都是基于大量的双语句对训练构建机器翻译系统。从这个角度上说,要缓解神经机器翻译技术在稀缺用语上“翻车”的现状,则需要引入新的学习机制,例如往人类学习外语的新范式方向发展,摆脱对大规模双语句对的依赖。这就好像AlphaGo最初根据人类棋谱来学习,之后的AlphaGo Zero引入新的学习方式,不依赖于人类棋谱来学习,下棋水平反而更高一样。

不过,要让机器像人类一样学习外语,当中有一个急需解决的问题:翻译人员对于自己的母语具有非常强的语法,能够准确判断母语译文是否符合母语说法,甚至人类的大脑对于不符合母语说法的错误会进行自动纠正,例如下面这句:

“研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的。”

同样,在翻译的过程中,例如在英翻中的任务中,为了构建表达一个具体含义的中文句子,只要从英文原文句子中得到几个中文译文单词。例如用“我 北京 去 明天”,我们也可以容易构建一个合法中文句子“明天我去北京”或者“我明天去北京”,不会说“我北京明天去”和“我去明天北京”等不合法的中文句子,在构建过程不需要过多依赖英文原文。这一能力被研究者称为“生成能力”,如何让机器具有可以与人媲美的“生成能力”,则是实现类似人类学习方式的“单语学习”第四代机器翻译的关键。

据AI科技评论了解,这一工作的瓶颈在于有些源语言的句法语义分析技术还处于起步阶段,相关研究成果如张岳、朱靖波、刘群等人合作研究并在2014年EMNLP发表的论文《Syntactic SMT Using a Discriminative Text Generation Model》,论文先分析源语言的句法成分和语义成分,再根据部分翻译的基本单元生成目标语言,近期类似工作也得到了一定的关注。

论文地址https://www.aclweb.org/anthology/D14-1021.pdf

毋庸置疑,目前的机器翻译在对那些任务重复性较大、翻译难度较低的低端翻译上已经取得了一定的成绩,但在实现翻译“信、达、雅”的终极目标上还需时日。一个可喜的变化是,近年来机器翻译和人工翻译两个领域的合作与交流日趋频繁,机器翻译技术目前正处在一个量变到质变的积累时期,下一代的机器翻译技术也将更多的从模仿人类的学习机制、开展人机协作上开展研究,而且这个质变或许已经为时不远。

3

OMT:微信、谷歌翻车小集锦

这种“生词”处理不当,其实机器翻译出现问题的一个方面,前段时间火边B站的“谷歌翻译20遍”,恰恰反映了把句子机翻成英文再翻回来之后译文不一致的情况。以少年闰土为例,原文与翻译二十遍之后的译文为:

原文:深蓝的天空中挂着一轮金黄的圆月,下面是海边的沙地,都种着一望无际的碧绿的西瓜。其间有一个十一二岁的少年,项带银圈,手捏一柄钢叉,向一匹猹用力地刺去。那猹却将身一扭,反从他的胯下逃走了。

译文:在绿色天空中几乎到处都是无尽的金色月亮,沙滩上满是沙子。那时,这个11岁的男孩尽可能地用金属皮带系住他的手,并将其放在金属把手上。叔叔关上身体,逃离叔叔。

......看到这里,怕是鲁迅大叔的棺材板都压不住了吧!

除了谷歌,【微信翻译】之前也出现过误翻情况,原因是无法有效应对没经过训练的非正式英文词汇,不过,现在微信翻译团队已经通过添加特殊词的copy机制初步解决了这个问题。当时的截图如下:

当出现人名时候,【微信翻译】会出现胡言乱语~~


招 聘

AI 科技评论希望能够招聘 科技编辑/记者 一名

办公地点:北京/深圳

职务:以参与学术顶会报道、人物专访为主

工作内容:

1、参加各种人工智能学术会议,并做会议内容报道;

2、采访人工智能领域学者或研发人员;

3、关注学术领域热点事件,并及时跟踪报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科背景,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及大量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。

感兴趣者,可将简历发送到邮箱:cenfeng@leiphone.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据和算法双重问题下的翻译BUG
  • 机器翻译:如何让机器不再死记硬背?
  • OMT:微信、谷歌翻车小集锦
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档