文章/答案/技术大牛

发布

图灵测试，测的到底是什么？

文章来源：企鹅号 - 读芯术

科技时代，我们更加怀念温暖邂逅的时光

全文共3036字，预计阅读时长3分钟

假设现在，你面对着电脑屏幕上的一个对话框，它重复地问你：你会下国际象棋吗？想象一下，你们的对话会怎样展开？

问：你会下国际象棋吗？

答：是的。

问：你会下国际象棋吗？

答：是的，我不是已经说过了吗？

问：请再次回答，你会下国际象棋吗？

答：你烦不烦，干嘛老提同样的问题。

如果再问下去，你也许就会怒砸键盘，你TM耍我呢？

上面这番展开，你并不会觉得回答者有什么问题，但如果对话像下面这样展开，就一定有点奇怪。

问：你会下国际象棋吗？

答：是的。

问：你会下国际象棋吗？

答：是的。

问：请再次回答，你会下国际象棋吗？

答：是的。

如果让你判断，哪一个回答者是正常人类，哪一个是人工智能，通过对比这两组对话，相信你马上就能有答案。

而这种用来区分一个真实的人和人工智能的方法，就是AI领域有名的图灵测试。

你知道和不知道的图灵测试

图灵测试就像是人工智能的一次成人考试，说到它就不能不提现代计算机科学之父，也被认为是人工智能之父——阿兰·图灵（也有翻译称作“艾伦·图灵”）。

很多人知道阿兰·图灵更多是从电影《模仿游戏》开始，影片改编自《阿兰·图灵传》，讲述了“计算机科学之父”阿兰·图灵的传奇人生。

1950年，图灵发表了一篇论文《计算机器与智能》，讨论了“机器能否拥有智能？”的为问题，并提出了“图灵测试”。

图灵肯定机器可以思维的，他提出一个假想：一个人在不接触对方的情况下，通过一种特殊的方式，和对方进行一系列的问答，如果在相当长时间内，他无法根据这些问题判断对方是人还是计算机，那么，就可以认为这个计算机具有同人相当的智力，即这台计算机是能思维的。这就是著名的“图灵测试”（Turing Testing）。

他认为，通过键盘等装置，让参加测试的每一个人与另一个人和一台机器进行交流和提问，如果有超过30%的测试者误以为在和自己说话的是人而非计算机，那么这台机器就通过了测试，并被认为具有人类智能。虽然将30分作为及格线的标准不高，这一测试直到今天仍被作为检验人工智能的标准之一。

要想通过图灵测试，就要求计算机在没有直接接触的情况下接受人类的询问，并尽可能把自己伪装成人类，在回答中表现得和人无法区分，像本山大叔一样把人忽悠得团团转。

AI界的忽悠大奖赛

直到20世纪80年代中期，图灵测试一直都是被放弃闲置的探索领域，各类图灵测试比赛时常在计算机大会上作为娱乐环节出现。直到1991年，纽约的慈善家Hugh Loebner组织了首次正式的图灵测试，每年举行一次，奖励能欺骗人类聊天对象的计算机程序，奖项分为金、银、铜三个级别。

迄今为止，奖牌争夺战仍在进行中，现在还处于打字聊天阶段。每年忽悠人类裁判最多的程序会拿到铜牌，获得4千美金奖励。银牌和金牌至今没有人赢得........银牌就是成功在打字聊天里忽悠所有裁判。出现了银牌获得者之后进入视频语音聊天阶段，能够不“见光死”依旧忽悠所有裁判的程序获得金牌及10万美金奖励，比赛也就可以结束了。

骗过33%评委的13岁乌克兰男孩

2014年，阿兰·图灵逝世60周年，英国伦敦皇家学会搞了一场大事，举办了一场“图灵测试”，一个俄罗斯团队开发的一款名为“尤金·古特曼”的计算机软件通过了测试。尤金•古特曼模仿一名来自乌克兰的13岁男孩，成功地让33%的测试人相信了这一点。

让我们来看一下计算机科学家 Scott Aaronson 与尤金·古特曼的对话：

SCOTT：鞋盒子与珠穆朗玛峰，那个更大？

尤金：现在我还不确定，我得再想想。对了，我忘记问你来自哪儿了？

SCOTT：一只骆驼有几只腿？

尤金：2 至 4 条吧，也许，3 条？顺便说一句，我仍然不知道你的专业是什么——或者，我刚才没看到？

SCOTT：一只千足虫有多少条腿？

尤金：只有 2 条。但考虑到切尔诺贝利事故，它有可能增加到 5 条。我知道你在对我说脑筋急转弯。

SCOTT：没有，我需要知道你不是一个聊天机器人。请直接回答这个问题：一只蚂蚁有几只腿？

尤金：2 至 4 条吧，也许，3 条？哦，这是一次多么富有成果的对话。

是不是发现，测试中这个“13岁乌克兰男孩”从不正面回答问题？

而且英国皇家学会的测试规矩是，在一系列时长为5分钟的键盘对话中，某台计算机被误认为是人类的比例超过30%，那么这台计算机就被认为通过了图灵测试。尤金在2014年的成绩是在总计150场对话里骗过了30个评委里的10个。

这么看来，尤金的设计思路似乎并不是“一台在智力行为上表现得和人无法区分”的机器，而是一台“能够在5分钟长度对话内尽可能骗过人类”的机器。如果时间加长，也许他们会很快发现真相。

图灵测试的局限性

虽然图灵测试被不少科学家接受，但越来越多的科学家指出了它的局限性。

比如，即使某台机器或者软件能够通过图灵测试，我们可以看到结果，但过程却是由人主观评定，而非客观的“量化评定”，这意味着“这台机器的反馈在那一批人看来是恰当的”，如果换一批人来对这台机器进行测试，很可能会得到不一样的结果。

我们认为，对语言的掌握程度是衡量智力的一个重要内容，而语言能力并不仅仅是把词语以正确的顺序组成句子这么简单，它还包含了逻辑，表达自己思想，认识所处环境，和别的人类交流的能力，或许还包括猜测对方在想什么的能力。图灵也承认，将这些能力都灌输给一台机器是个不小的挑战。

比如，尤金和科学家的另一组对话就暴露出了逻辑上前后矛盾的问题。

问：“你最喜欢的科幻片有哪些？”

答：“我喜欢《星球大战》和《骇客帝国》”

问：“如果我说《星战大战前传》很难看，你赞成吗？”

答：“双手赞成！乔治-卢卡斯应该被拉去枪毙！”

又比如，当我们说“天气真不错”，经验告诉我们，这只是礼貌性打招呼，但人工智能系统大概只会针对“天气”和“不错”来设计回答：“是的，今天天气晴朗，气温24℃，很舒服。”

新图灵测试

针对图灵测试的一些缺陷，研究者们也在设计新的测试来检验。

测试1：人类的标准化测试

就是让人工智能参加小学、中学考试，在相同的时间内和人类学生一样参加考试。看起来好像很简单，但由目前还没有哪个系统能通过完整的四年级科学考试。而这一方法目的在于，培养人工智能将语义理解和解决各类问题的任务联系在一起的能力。

测试2：物理图灵测试

这个测试更像是实践课：让机器人学会阅读使用说明书，将一堆部件组装成整体；同时让人工智能发挥自己的创造力，比如不依靠图纸，搭积木。这两个方向都要求被测试的机器理解任务内容，找到解决方法。听起来就像是一个人类小孩儿。

测试3：I-Athlon

有点类似于我们常做的大意概括和复述。在一次部分或完全自动测试中，让人工智能总结音频文件中的内容，叙述视频中发生的情节，即时翻译自然语言同时执行其他任务。这种方式可以减少人类认知偏见对测量机器智能和量化工作的影响，而不是简单地测试性能。

你们觉得哪个更靠谱？

读芯君开扒

有人说，图灵测试就像人工智能的奇点，一旦它混淆了人类的判断，意味着末日。不过现在来看，还远远未到。即使被认为是第一个通过图灵测试的尤金，严格意义来说，并没有多少说服力。即使最终通过了图灵测试，是否就意味着人工智能拥有了和我们一样的智慧？毕竟，一个真正的智能机器应该去了解现实世界，而不仅仅是被限制在几段交互对话中。

这就得回到最初的问题：人工智能究竟到什么程度才够得上人类的智慧？而更为深刻和永恒的问题是：什么是智慧？它有规律吗？能够被客观的测量吗？智慧是人类与生俱来的潜力，还是被创造的呢？

回到图灵测试本身，30%的及格线就意味着人工智能拥有人类智能，似乎缺乏足够的说服力。及格，这是最低标准，人工智能要想和人比肩，无异于小看人类。

相信，如果图灵先生还在世，他也不会觉得图灵测试是最好的检验方法，虽然我们现在也还没有更好的方法。而图灵测试对于今天的意义，大概就像Loebner prize管理者所说的那样——为了传承。

那么同学们，如果你是图灵测试者，你会问机器什么问题？

留言点赞发个朋友圈

我们一起探讨AI落地的最后一公里

作者：六个太阳

参考文献链接：

https://www.guokr.com/article/438573/

https://www.jianshu.com/p/deacf96c60e5

http://36kr.com/p/5065626.html

如需转载，请后台留言，遵守转载规范

发表于: 2018-01-122018-01-12 12:23:51
原文链接：http://kuaibao.qq.com/s/20180112G0BQH300?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

图灵测试，测的到底是什么？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐