“咿呀学语”≠翻译家 请停止对人工智能的“捧杀”

对弈、驾车、识图、对话……这两年来,人工智能似乎“无所不能”。

近期,fastcompany又援引西班牙Universidad del País Vasco(UPV)和美国卡耐基梅隆大学(CMU)的研究工作,声称人工智能在机器翻译领域取得了“重大突破”。根据这篇文章,上述两所机构最新研发的AI机器翻译系统,似乎已经可以“在无需人类翻译文本的学习资料的情况下,自主学习翻译地球上的任何语言”了。(内容参考)

这听上去好可怕,仿佛机器人又要制霸地球了——并没有。倒不如说,这其实是人工智能领域“旧病复发”的一个危险征兆:对AI的“捧杀”又开始了。

1

AI“自学翻译”的真相

只要认真阅读一下UPV和CMU两所大学相关研究人员的相关论文,就不难发现:所谓的“人工智能已经能够自主学习翻译任何语言”的故事存在至少两个方面的严重夸大。

首先是人工智能的具体角色:用于学习“双语词嵌入映射”(bilingual word embedding mappings,BWEM)——这仅仅是机器翻译系统所使用到的众多关键技术中的一项而已。诚然,解决BWEM对于机器翻译而言十分重要,毕竟这项技术是在不同语言中具有相同含义的固定短语、成语、俗语等业已形成的固定词语搭配之间建立起对应联系,从而使得翻译系统能够避免连人类也会时而犯下的尴尬错误(例如,在过去的一次联合国大会上,同声传译在将阿拉伯语翻译成英语时就曾将“阉割”翻译成了“公变母”,场面一度十分尴尬)。然而,在一次完整的翻译过程中,语句解构、语态/时态判断、上下文联系等环节对于语言意义的正确解释同样至关重要。譬如《神雕侠侣》中,蒙古王子霍都与杨过斗嘴屡屡吃亏,细究的话,无非是没有正确地解构“小畜生骂谁”的真正含义而已。所以说,面对翻译这样一个复杂精细的技术活,单单拿出BWEM上的一点改进就对AI翻译的“进展”言之凿凿,真的好吗?

AI怎么着也应该先给自己定个小目标,比如他

其次是人工智能“自学”翻译的实际效果。不如让我们看看相关研究中的真实数据。

这个表格可谓干货满满,至少能够说明以下几个问题:

1. 所谓能够翻译“任何语言”的AI,实际上只在英语、意大利语、德语、芬兰语四个语种上进行了测试,其中前三种语言均属于印欧语系,仅有芬兰语属于乌拉尔语系,亲缘关系稍远。

2. 即便是AI翻译的最佳成绩,准确率也没有超过42%。

3. 一直以来,跨语系翻译才是机器(甚至人工)翻译的关键难点所在,而上表数据中可以明显看到,AI的英语-芬兰语翻译效果较之其他两种翻译显著更差——并不能免俗。

至于AI在没有人类先验知识的情况下进行纯粹的跨语言“自学”(也就是使用无监督学习,自己生成不同语言间的同义词关联),其效果也是有图有真相的:

这是AI翻译英语-意大利语的精度曲线,其中纵轴为精确度(单位%),而红色点线则是不使用任何种子字典的情况下,完全由AI无监督学习所得到的结果。是的,这项研究的一个重要结论,就是指出无监督学习可以让AI在BWEM中达到和有足够人类经验数据支持时不相上下的训练效果。但也仅此而已——特别是考虑到即使是在有人类数据作为“导师”的情况下,AI也不过是勉强“蒙对”一半的幼儿水平而已。

2

拒接捧杀,人工智能领域自己要有点数

夸大进展、错把远景以为是“就在不久之后”,人工智能领域已经不是第一次犯下这样的错误了——而上一次错误的代价,是整个领域将近30年的停滞不前。

猜想一下近年以来大红大紫的人工智能技术都是在什么时候提出的?一年以内?两年前?还是五年前?

答案揭晓:

卷积神经网络 – 1980年最早提出“新认知机”的概念,1989年第一个实现网络被提出;

深度学习 – 1986年这个概念最早被提出,而直到2006年才有学者给出了有效的深度神经网络学习方法;

蒙特卡洛搜索树 – 蒙特卡洛法这一算法思想最早可以追溯到20世纪40年代。

你也需要问,这意味着什么?这意味着:近年来人工智能领域的所谓“进展”,几乎完全可以归结为硬件性能的飞跃使得海量数据的存储和处理成为可能,从而令过去数十年来效果一直不尽人意的方法变得更有效了。而与此同时,人工智能领域的核心思想、关键技术和方法,较之上世纪80年代则并没有多么大的变化。是的,AlphaGo每天烧着数千美元的电费,战胜了李世石,战胜了柯洁。然而一众九段们输了棋,仍然能够对话、书写、做很多围棋之外的事情,而AlphaGo除了盯着数字空间里虚拟的棋盘以外,再无其他所能。就在今年的AI界顶级学术会议——神经信息处理系统大会(NIPS)上,获奖学者Ali Rahimi就曾公开抨击,称“机器学习已经成为了炼金术”。而看看媒体们的态度吧,我们能够责怪他吗?

回顾AI的发展历史,人们会告诉你,这个领域到目前为止经历了三次高潮。他们不会告诉你的,是推动着这每一次高潮的幕后资本狂欢,是这数次高潮之间每每数十年的沉寂和淡忘。如今,当计算机其他领域的进步终于给人工智能带来了前所未有的机遇时,当资本和舆论再次跃跃欲试、试图“造神”时,至少人工智能领域的内部应该清楚自身的斤两,真正脚踏实地地去解决一个又一个难题,让人类离真正的AI更近一点。

今天的文章写得很诚恳,除了作者一栏又撒谎了

Delta

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171211B0PAO600?refer=cp_1026

扫码关注云+社区