前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >超越图灵测试:判断机器是否在思考的现代方法

超越图灵测试:判断机器是否在思考的现代方法

作者头像
用户7886150
修改2021-01-29 10:11:23
6970
修改2021-01-29 10:11:23
举报
文章被收录于专栏:bit哲学院

参考链接: 图灵测试

全文共2189字,预计学习时长6分钟

 图源:slate

 人工智能正在改变生活的方方面面,大多数专家认为,今天的人工智能进化为人工通用智能只是时间问题,计算机迟早会达到甚至超过人类智能的临界点。但问题是,我们如何知道这种情况何时会发生?

 1950年,艾伦·图灵提出了著名的测试方法,用来判断机器是否真的在思考。这一测试在论文发表后经历了一些演变,其中一个常见的解释是这样的:

 一个人,即审讯者(C),可以通过电脑终端进行交流(现在,我们可能会说通过即时通讯、电子邮件或短信);在计算机链路的另一端是人(B)或计算机(A)。经过20分钟的键盘通信后,询问者会表明在另一端是人还是计算机。

 如果审讯者认为他在和一个人交谈,但实际上是一台电脑,那么结论就是,这台电脑一定在像人一样思考。为了让计算机“通过”测试,这个实验要进行多次,超过一半的审问者同意。

 最近,对图灵测试的一种改进将对话时间缩短到5分钟,并认为如果计算机愚弄受试者的时间超过30%,测试就通过了。2014年,一个名为Cleverbot 的程序被声称通过了图灵测试,愚弄了33%的审讯者。然而,虽然Cleverbot有一些复杂的反应,但我与它的互动很快暴露了其局限性。

 不过,我宁愿对图灵的测试吹毛求疵,也不愿对Cleverbot s的主张吹毛求疵。我有两个主要担忧:

 ·        图灵测试的名声推动了诸如Cleverbot或Watson等程序的发展,这些程序拥有惊人的语言能力,但却牺牲了针对真正AGI的资源。

 ·        为了通过测试,计算机必须被设定为会说谎。有没有私人问题,比如你多大了?眼睛是什么颜色的?甚至你是一台电脑吗?如果电脑如实回答,那就是泄密。在某种程度上,为了通过测试,一个系统被编程为目标和情感的等价物,这些必须是人类的目标和情感,而不是可能对机器有效的目标和情感。这需要花费大量的开发努力来玩这种本质上属于聚会游戏的游戏

 我对该测试的准确性也有几点担忧:

 ·        测试结果的好坏取决于审讯者的老练or易上当。

 ·        该测试允许在计算机的某一部分上假装有缺陷以掩盖其局限性。例如,为了弥补理解上的缺陷而声称自己是一个孩子。

 ·        它强加了人类层次的约束。如果我们能造出一台具有超人智慧的机器,它会不会因为看起来太聪明而无法通过测试。

 假设有真正的AGI系统,并且位置颠倒了——一个AGI来决定你是计算机还是人,你能做得多好?

 在最近的AGI-20会议上,一位与会者评论说,真正智力的测试应该是设计真正智力测试的能力。没有这样的测试,难道我们就没有真正的智慧吗?

 为了解决这些问题,人们建议调整图灵测试,创造出一套标准类型的问题,用来探究情报的各个方面,而不是由审问者单独或多或少地编造一些随机问题。与其将计算机的反应与个人进行比较,不如将计算机与不同年龄、性别、背景和能力的人类回答者进行比较。

 现在,把审问者重新塑造成法官,他们会给测试结果打分,以判断每个答案是否都是对问题的合理回答。问题和答案应该随机混合,以防止发现得分趋势。例如,如果一个回答者给出了一个低分数的答案,不应该影响该回答者对其他回答的感知质量。

 针对特定智力领域的样本问题可能包括以下内容:

 ·        你能描述现在看到(听到)的东西吗?

 ·        描述一下你在这幅图中看到了什么?

 ·        (模式识别/知识)如果我[动作,比如唱歌,跌倒,掉铅笔,讲笑话],你的反应会是什么?

 ·        (预测/理解人类行为)如果你[行为,比如讲笑话,偷我的钱包,或者通过这个测试],我的反应会是什么?

 ·        说出三种类似于[一个物体,如树、花、汽车或电脑]的东西。

 ·        说出你最喜欢的[物体,如食物、饮料、电影明星、书或科学家]。

 ·        (目标导向)解释一种电码。

 ·        使用那个代码,编码这个消息。

 ·        这张照片怎么了?

 “这张照片有什么问题吗?”该问题不仅关于对象识别的图像,还关于现实世界的理解使用和关系的对象。发件人:科赫、克里斯托弗和朱利奥·托诺尼,“关于意识的测试——我们如何知道这台电脑有感知能力?让它解决一个简单的难题” (2011)。

 可以对一个会思考的机器和一个人提出同样的问题,但我们可以假定,会从这两者得到显著不同的答案,而且很容易区分电脑和人。对每个问题的回答由几位评委来评定是否有意义,如果计算机给出的有意义的答案数量相同,它就在思考。

 关键在于,问题需要是开放式的,以便让受访者表明他们真正理解。为了创造无限的集合,题目的类型可以是多种多样的,这可以防止计算机被输入特定的答案。这些问题都需要认真思考。

 同样地,一个法官可能不擅长判断一个人的回答是否合理,但如果有多个法官对多个应答者进行评级,我们应该可以得到一个好的评估。让AGI成为裁判之一怎么样?

 图源:unsplash

 是时候用更好的东西取代图灵测试了,继续致力于在图灵测试中欺骗人类并不是创建AGI的正确方向,该去尝试衡量它的智力。

 推荐阅读专题

 留言点赞发个朋友圈

 我们一起分享AI学习与发展的干货

 编译组:杨娴、符馨元

 相关链接:

 https://www.kdnuggets.com/2020/08/beyond-turing-test.html

 如转载,请后台留言,遵守转载规范

 推荐文章阅读

 ACL2018论文集50篇解读

 EMNLP2017论文集28篇论文解读

 2018年AI三大顶会中国学术成果全链接

 ACL2017论文集:34篇解读干货全在这里

 10篇AAAI2017经典论文回顾

 长按识别二维码可添加关注

 读芯君爱你

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
短信
腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档