图灵测试,测的到底是什么?

科技时代,我们更加怀念温暖邂逅的时光

全文共3036字,预计阅读时长3分钟

假设现在,你面对着电脑屏幕上的一个对话框,它重复地问你:你会下国际象棋吗?想象一下,你们的对话会怎样展开?

问:你会下国际象棋吗?

答:是的。

问:你会下国际象棋吗?

答:是的,我不是已经说过了吗?

问:请再次回答,你会下国际象棋吗?

答:你烦不烦,干嘛老提同样的问题。

如果再问下去,你也许就会怒砸键盘,你TM耍我呢?

上面这番展开,你并不会觉得回答者有什么问题,但如果对话像下面这样展开,就一定有点奇怪。

问:你会下国际象棋吗?

答:是的。

问:你会下国际象棋吗?

答:是的。

问:请再次回答,你会下国际象棋吗?

答:是的。

如果让你判断,哪一个回答者是正常人类,哪一个是人工智能,通过对比这两组对话,相信你马上就能有答案。

而这种用来区分一个真实的人和人工智能的方法,就是AI领域有名的图灵测试。

你知道和不知道的图灵测试

图灵测试就像是人工智能的一次成人考试,说到它就不能不提现代计算机科学之父,也被认为是人工智能之父——阿兰·图灵(也有翻译称作“艾伦·图灵”)。

很多人知道阿兰·图灵更多是从电影《模仿游戏》开始,影片改编自《阿兰·图灵传》,讲述了“计算机科学之父”阿兰·图灵的传奇人生。

1950年,图灵发表了一篇论文《计算机器与智能》,讨论了“机器能否拥有智能?”的为问题,并提出了“图灵测试”。

图灵肯定机器可以思维的,他提出一个假想:一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么,就可以认为这个计算机具有同人相当的智力,即这台计算机是能思维的。这就是著名的“图灵测试”(Turing Testing)。

他认为,通过键盘等装置,让参加测试的每一个人与另一个人和一台机器进行交流和提问,如果有超过30%的测试者误以为在和自己说话的是人而非计算机,那么这台机器就通过了测试,并被认为具有人类智能。虽然将30分作为及格线的标准不高,这一测试直到今天仍被作为检验人工智能的标准之一。

要想通过图灵测试,就要求计算机在没有直接接触的情况下接受人类的询问,并尽可能把自己伪装成人类,在回答中表现得和人无法区分,像本山大叔一样把人忽悠得团团转。

AI界的忽悠大奖赛

直到20世纪80年代中期,图灵测试一直都是被放弃闲置的探索领域,各类图灵测试比赛时常在计算机大会上作为娱乐环节出现。直到1991年,纽约的慈善家Hugh Loebner组织了首次正式的图灵测试,每年举行一次,奖励能欺骗人类聊天对象的计算机程序,奖项分为金、银、铜三个级别。

迄今为止,奖牌争夺战仍在进行中,现在还处于打字聊天阶段。每年忽悠人类裁判最多的程序会拿到铜牌,获得4千美金奖励。银牌和金牌至今没有人赢得........银牌就是成功在打字聊天里忽悠所有裁判。出现了银牌获得者之后进入视频语音聊天阶段,能够不“见光死”依旧忽悠所有裁判的程序获得金牌及10万美金奖励,比赛也就可以结束了。

骗过33%评委的13岁乌克兰男孩

2014年,阿兰·图灵逝世60周年,英国伦敦皇家学会搞了一场大事,举办了一场“图灵测试”,一个俄罗斯团队开发的一款名为“尤金·古特曼”的计算机软件通过了测试。尤金•古特曼模仿一名来自乌克兰的13岁男孩,成功地让33%的测试人相信了这一点。

让我们来看一下计算机科学家 Scott Aaronson 与尤金·古特曼的对话:

SCOTT:鞋盒子与珠穆朗玛峰,那个更大?

尤金:现在我还不确定,我得再想想。对了,我忘记问你来自哪儿了?

SCOTT:一只骆驼有几只腿?

尤金:2 至 4 条吧,也许,3 条?顺便说一句,我仍然不知道你的专业是什么——或者,我刚才没看到?

SCOTT:一只千足虫有多少条腿?

尤金:只有 2 条。但考虑到切尔诺贝利事故,它有可能增加到 5 条。我知道你在对我说脑筋急转弯。

SCOTT:没有,我需要知道你不是一个聊天机器人。请直接回答这个问题:一只蚂蚁有几只腿?

尤金:2 至 4 条吧,也许,3 条?哦,这是一次多么富有成果的对话。

是不是发现,测试中这个“13岁乌克兰男孩”从不正面回答问题?

而且英国皇家学会的测试规矩是,在一系列时长为5分钟的键盘对话中,某台计算机被误认为是人类的比例超过30%,那么这台计算机就被认为通过了图灵测试。尤金在2014年的成绩是在总计150场对话里骗过了30个评委里的10个。

这么看来,尤金的设计思路似乎并不是“一台在智力行为上表现得和人无法区分”的机器,而是一台“能够在5分钟长度对话内尽可能骗过人类”的机器。如果时间加长,也许他们会很快发现真相。

图灵测试的局限性

虽然图灵测试被不少科学家接受,但越来越多的科学家指出了它的局限性。

比如,即使某台机器或者软件能够通过图灵测试,我们可以看到结果,但过程却是由人主观评定,而非客观的“量化评定”,这意味着“这台机器的反馈在那一批人看来是恰当的”,如果换一批人来对这台机器进行测试,很可能会得到不一样的结果。

我们认为,对语言的掌握程度是衡量智力的一个重要内容,而语言能力并不仅仅是把词语以正确的顺序组成句子这么简单,它还包含了逻辑,表达自己思想,认识所处环境,和别的人类交流的能力,或许还包括猜测对方在想什么的能力。图灵也承认,将这些能力都灌输给一台机器是个不小的挑战。

比如,尤金和科学家的另一组对话就暴露出了逻辑上前后矛盾的问题。

问:“你最喜欢的科幻片有哪些?”

答:“我喜欢《星球大战》和《骇客帝国》”

问:“如果我说《星战大战前传》很难看,你赞成吗?”

答:“双手赞成!乔治-卢卡斯应该被拉去枪毙!”

又比如,当我们说“天气真不错”,经验告诉我们,这只是礼貌性打招呼,但人工智能系统大概只会针对“天气”和“不错”来设计回答:“是的,今天天气晴朗,气温24℃,很舒服。”

新图灵测试

针对图灵测试的一些缺陷,研究者们也在设计新的测试来检验。

测试1:人类的标准化测试

就是让人工智能参加小学、中学考试,在相同的时间内和人类学生一样参加考试。看起来好像很简单,但由目前还没有哪个系统能通过完整的四年级科学考试。而这一方法目的在于,培养人工智能将语义理解和解决各类问题的任务联系在一起的能力。

测试2:物理图灵测试

这个测试更像是实践课:让机器人学会阅读使用说明书,将一堆部件组装成整体;同时让人工智能发挥自己的创造力,比如不依靠图纸,搭积木。这两个方向都要求被测试的机器理解任务内容,找到解决方法。听起来就像是一个人类小孩儿。

测试3:I-Athlon

有点类似于我们常做的大意概括和复述。在一次部分或完全自动测试中,让人工智能总结音频文件中的内容,叙述视频中发生的情节,即时翻译自然语言同时执行其他任务。这种方式可以减少人类认知偏见对测量机器智能和量化工作的影响,而不是简单地测试性能。

你们觉得哪个更靠谱?

读芯君开扒

有人说,图灵测试就像人工智能的奇点,一旦它混淆了人类的判断,意味着末日。不过现在来看,还远远未到。即使被认为是第一个通过图灵测试的尤金,严格意义来说,并没有多少说服力。即使最终通过了图灵测试,是否就意味着人工智能拥有了和我们一样的智慧?毕竟,一个真正的智能机器应该去了解现实世界,而不仅仅是被限制在几段交互对话中。

这就得回到最初的问题:人工智能究竟到什么程度才够得上人类的智慧?而更为深刻和永恒的问题是:什么是智慧?它有规律吗?能够被客观的测量吗?智慧是人类与生俱来的潜力,还是被创造的呢?

回到图灵测试本身,30%的及格线就意味着人工智能拥有人类智能,似乎缺乏足够的说服力。及格,这是最低标准,人工智能要想和人比肩,无异于小看人类。

相信,如果图灵先生还在世,他也不会觉得图灵测试是最好的检验方法,虽然我们现在也还没有更好的方法。而图灵测试对于今天的意义,大概就像Loebner prize管理者所说的那样——为了传承。

那么同学们,如果你是图灵测试者,你会问机器什么问题?

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

作者:六个太阳

参考文献链接:

https://www.guokr.com/article/438573/

https://www.jianshu.com/p/deacf96c60e5

http://36kr.com/p/5065626.html

如需转载,请后台留言,遵守转载规范

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180112G0BQH300?refer=cp_1026

同媒体快讯

扫码关注云+社区